口唇の深度画像を用いたマルチモーダル音声認識

押尾翔平; 岩野公司; 篠田浩一

論文・著書情報

タイトル

和文:	口唇の深度画像を用いたマルチモーダル音声認識
英文:

著者

和文:	押尾翔平, 岩野公司, 篠田浩一.
英文:	Syohei Oshio, Koji Iwano, Koichi Shinoda.

言語

Japanese

掲載誌/書名

和文:	情報処理学会研究報告 SLP
英文:	IPSJ SIG Technical Report of SLP

巻, 号, ページ

vol. 102 no. 2 pp. 1-6

出版年月

2014年7月24日

出版者

和文:	情報処理学会
英文:	Information Processing Society of Japan

会議名称

和文:	2014年7月音声研究会・音声言語情報処理研究会合同研究会
英文:

開催地

和文:	岩手県花巻市
英文:	Hanamaki-shi Iwate Pref.

公式リンク

http://www.ipsj.or.jp/sig-reports/SLP/SLP102.html
http://www.ieice.org/ken/program/index.php?tgid=IPSJ-SLP&year=12
http://www.ieice.org/ken/program/index.php?tgs_regid=cd3b7cfab9a7383443e25501a4abff320465d8f5a7fa44824194f5ece2cbd8b0&tgid=IPSJ-SLP&lang=

アブストラクト

音声認識の雑音耐性の向上のための手段のひとつとして、唇動画像情報を音声情報とともに利用するマルチモーダル音声認識の研究が数多く行われている。本研究では、音声認識のための画像特徴量として、従来の正面画像に加え、Microsoft Kinectから得られる深度情報を用いる手法を提案する。HMMによる口唇・口腔の輪郭抽出手法に深度情報を入力として加えるほか、唇の突出などで生じる凹凸を画像特徴量として抽出する手法を導入した。日本語文音声に対する連続音声認識実験の結果、複数話者のデータを用いた際に、単語正解制度が66.0%から67.0%に増加し、発声時に口を尖らせる音素や舌が口腔を塞ぐような動きをする音素に対して提案手法が特に有効であることが確認された。

Home

各種検索

サポート

T2R2について

関連リンク

論文・著書情報