音声言語処理研究室

教授

助教

音声言語処理研究室(Spoken Language Processing Lab.)

キーワード

音声認識，音響モデル，言語モデル、音声対話システム、マルチモーダルインタフェース，自動運転車

音声認識

音声認識は、講義や動画の字幕作成や、スマートフォンの操作、さらにはロボットなどとの対話など、非常に利用場面の多い技術です。様々な場面で音声認識が活用できるように、我々は、深層学習モデルの中でも、TransformerやCTCなどのEnd-to-endモデリング技術を駆使し音声認識技術の性能改善を行っています。

フレンドリーな音声対話インタフェース

はじめて音声対話を使う人にとって、システムは不自然に感じられます。それは人の発話とシステムの発話の「間」が長すぎ、システムはホントに動いてるの？と思わせてしまうからです。こうして、システムの使い心地は低下します。そこで、対話の中でのタイミングや声の高さの変化に注目します。我々の音声対話システムは、相手の発話を考慮して話します。人が話すとき、相手と声の高さを合わせますよね？
一方で、意味的な内容も考えて対話をします。こうして、頑健でかつ自然な応答をする対話システムを構築しています。

マルチモーダルインタフェース

音声で対話するとき、人はしばしば、指差しを使ったり、視線で情報を伝えたりします。そうした人対人のインタラクションを、人と機械との間でも実現しようと考えています。
自動運転車を操作することを考えてみましょう。どこへ行きたいのか、どこで曲がりたいのか。これを伝えるのに、声だけでは不自由です。実際に、自動運転車に声とジェスチャや視線を交えて意思を伝えるインタフェースを構築し、走行しています。