キーワード
音声認識,音響モデル,言語モデル、音声対話システム、マルチモーダルインタフェース,自動運転車
音声認識
講義音声の書き起こしや、スマートフォンの操作など、音声認識は非常に有望な研究領域です。我々は、HMM や DNN を用いた人の声のモデル(音響モデル)の改良による音声認識性能の改善を行っています。また、統計的言語モデルの改良も行っています。
フレンドリーな音声対話インタフェース
はじめて音声対話を使う人にとって、システムは不自然に感じられます。それは人の発話とシステムの発話の「間」が長すぎ、システムはホントに動いてるの?と思わせてしまうからです。こうして、システムの使い心地は低下します。そこで、対話の中でのタイミングや声の高さの変化に注目します。我々の音声対話システムは、相手の発話を考慮して話します。人が話すとき、相手と声の高さを合わせますよね?
一方で、意味的な内容も考えて対話をします。こうして、頑健でかつ自然な応答をする対話システムを構築しています。
マルチモーダルインタフェース
音声で対話するとき、人はしばしば、指差しを使ったり、視線で情報を伝えたりします。そうした人対人のインタラクションを、人と機械との間でも実現しようと考えています。
自動運転車を操作することを考えてみましょう。どこへ行きたいのか、どこで曲がりたいのか。これを伝えるのに、声だけでは不自由です。実際に、自動運転車に声とジェスチャや視線を交えて意思を伝えるインタフェースを構築し、走行しています。