声による操作が当たり前に!?活用進むVUIのさらなる普及への課題や今後の展望を解説
目次
声によってデバイスやアプリケーションを操作するVUIは、近年さまざまな製品・サービスに活用されています。今後も市場が拡大するとみられる領域ではあるものの、さらなる普及にはいくつかの課題が残されています。この記事では、VUIとは何か、VUIのメリットや課題、今後の展望について解説します。
VUIとは?
VUIとは、「Voice User Interface(ボイスユーザーインターフェース)」の略語で、人間がマイクに発話することでシステムに指示を行ったり、システムからの応答を合成音声によって受け取ったりする方式のことです。VUIの代表例には、スマートフォンやスマートスピーカーなどの音声アシスタントがあります。近年では、AI技術の発達により音声認識の精度が向上していることや、認識した音声をテキスト情報として処理する自然言語処理の技術レベル向上を背景に、さまざまな製品・サービスにVUIが活用されています。
そもそもUIとは、ユーザーと製品・サービス間で情報をやりとりするための機器や操作画面、操作方法などを指すもので、VUI以外にも次のようなものがあります。
種類 | 特徴 |
---|---|
CUI(Character User Interface) | 文字入力によって操作する方式。コンピューターが生まれた当初から存在するオーソドックスなUIで、現在はWindowsの「コマンドプロンプト」に用いられている。 |
GUI(Graphical User Interface) | グラフィックによって操作する方式。マウスを使ってソフトウェアやファイルをクリックして開くなどの操作方法が代表例。専門知識が必要なく、一般ユーザーも広く利用できる。 |
NUI(Natural User Interface) | スマートフォン・タブレットのタップ操作やスライド操作、ATMのタッチパネル操作などが代表例。VUIもNUIの一種。五感によるUIとも呼ばれている。 |
かつては文字入力にて操作するCUIが主に用いられていましたが、近年ではスマートフォンのように画面に直接触れて操作するNUIが多くのデバイスで用いられています。VUIもNUIの一種であり、今後も広く活用されていくと考えられています。
VUIのメリットと普及への課題
AIの発展によって活用場面が増加しているVUIには、さまざまなメリットがあります。その一方で、広く普及するためにはいくつかの課題が残されています。ここからは、VUIのメリットと普及への課題について見ていきましょう。
VUIのメリット
VUIの大きなメリットとしては、デバイスや周辺機器に直接接触することなく操作できる点が挙げられます。これにより、操作にかかる時間や手間を短縮できるだけでなく、デバイスや周辺機器に接触しないことから衛生的に使用できることも利点で、感染症予防の観点からも役立ちます。また、デバイスに直接触れることが難しい方や、画面を見ることが難しい方でも、声でデバイスを操作してさまざまなサービスを活用できるようになります。
VUIは、日ごろからスマートフォンやスマートスピーカーで使用されていることに加え、外出先では音声操作可能な案内ロボットなどでも活用されています。タッチ操作やマウス操作の必要がないため、利用ハードルが低く、多くの方が日常生活の中で使用しやすいことも利点です。
また、デバイスや周辺機器に直接接触することなく操作できる点が挙げられます。これにより、操作にかかる時間や手間を短縮できるだけでなく、デバイスや周辺機器に接触しないことから衛生的に使用できることも利点で、感染症予防の観点からも役立ちます。また、デバイスに直接触れることが難しい方や、画面を見ることが難しい方でも、声でデバイスを操作してさまざまなサービスを活用できるようになります。

VUIは、日ごろからスマートフォンやスマートスピーカーで使用されていることに加え、外出先では音声操作可能な案内ロボットなどでも活用されています。タッチ操作やマウス操作の必要がないため、利用ハードルが低く、多くの方が日常生活の中で使用しやすいことも利点です。
VUI普及に向けての課題
このようなメリットがある一方で、さらなる普及を実現するためにはいくつかの課題を乗り越える必要があるでしょう。
まずは音声認識の精度についてです。VUIを使用している中で、デバイスなどが実際の指示と異なる挙動をしてしまうことがあります。これは、システムが話者の音声を完全に理解することがまだまだ難しいためです。話し方によってはうまく内容をくみ取ってもらえない、誤認識されてしまうなどのケースが生じ、何度も指示を行うことがあるでしょう。

次に、コンテクスト(文脈)の理解が限られている点もあります。私たちは相手と会話を続けるにあたり、会話の文脈を理解しながら言葉のキャッチボールをしています。VUIの場合、会話を継続させるためにユーザーの属性・背景などに基づいてパーソナライズ化し、話者に言葉を返す必要があります。そのためには、VUI側で正確に文脈を認識することが求められます。
さらに感情の予測も課題です。私たちは会話の中で、相手の声のトーンや音量などを意識せずに認識し、相手の感情を予測しながらやりとりをしています。VUIでも話者の発言の背後にある声のトーンなどの情報を認識し、的確に返答する必要がありますが、そのためには話者に「共感する」ことも求められるでしょう。VUIが話者に共感するためには、音声感情解析AIなどの技術をVUIと組み合わせ、より自然なコミュニケーションができるようになる必要があります。
VUIがさらに普及するためには、音声の入出力に関する技術革新も求められます。例えばVUIをイヤホンタイプの端末にすることで、両手を空けた状態でVUIを利用できるようにする、などです。デバイスの小型化やデバイスの着用方法には、まだ技術革新の余地が残っていると言えるでしょう。
VUIの今後の展望は
声で機器を操作できるVUIは利便性が高く、デバイスや認識精度の向上、音声による指示への柔軟な対応が可能になるなどの技術の進化によって今後ますます活用が広がっていくと思われます。実際、スマートフォンやスマートスピーカーだけでなく、スマート家電やeラーニング、eコマースなど、幅広い場面で活用され始めています。
※Apple Vision ProはApple Inc.の商標です。

意外なところでは、VUIを英語学習に活用できるという点もあります。スマートスピーカーや音声AIアシスタントとのやりとりでは、①シンプルでわかりやすい文章をいかに組み立てるか、②相手とのキャッチボールをどのようにスムーズに行うか、を話者は深く考えるようになります。特に自分だけの英語の先生であるVUIと、いつでも好きな時に学習できるのはそれ自体価値があり、学習も進みやすいことは容易に想像できます。そのうえ、何度間違えても、そもそも相手がAIなので嫌な顔もされないのも良い点かと思います。このような学習分野においても、VUIが主流になっていくことでしょう。
VUIは、障がいによって生まれるコミュニケーションの壁を取り払うことにも貢献する技術でもあります。すでにさまざまな技術開発が着手されており、音声をリアルタイムで認識して、文字や図解、動画をわかりやすく表示するシステムもあります。
実は、京セラもVUIを活用した新しい技術を開発しており、既に市場に投入しているものもあります。詳しくは次の記事をご覧ください。
関連記事:誰もが平等なコミュニケーションを!わかりやすい字幕表示システム開発者の想いは?

コロナ禍でマスク生活を強いられている中、アクリル板や飛沫防止シートの設置により相手の声が聞きづらい!聞こえない!と感じたことはありませんか?コロナ禍におけるこのような課題を解決すべく京セラ研究開発では「聴覚障がい者用字幕表示システム」の開発を進めています。京セラの中でもちょっと毛色の違うこのテーマ、テッちゃんがこのテーマを進めている山本さんに突撃!インタビューを敢行しました。
関連記事:音を戻す!?聞き逃しを無くすナイスなアシスト

皆さん、作業に集中しすぎて周りの声が聞こえなくなることってありますよね。電車で音楽を聴いていて降りる駅を過ぎたり、病院の待合室で本を読んでいて順番を逃したり。そんな経験ありませんか?人間の脳は重要な音を選んで注意を向けますが、それ以外の音は聞き逃してしまいます。もし、そんな時に注意を引き戻してくれるガジェットがあったら使ってみますか?
さまざまな製品・サービスに広がるVUI
VUIの活用により、より手間なくデバイスを操作できるだけでなく、より多くの人が製品やサービスを簡単に扱えるようになります。その結果、円滑なコミュニケーションを図れるようになるのです。さらに、将来的にはロボットとの会話や共生が実現する可能性をも秘めています。かつてアニメで観ていたような、SFの世界がもうすぐ到来するかもしれません。
今後さらなる普及が見込まれているVUIを、どのように活用できるのか。人類の夢を夢に終わらせない挑戦が続いています。