TOP > 研究報告検索 > 人間どうしの音声コミュニケーションの認識・理解

人間どうしの音声コミュニケーションの認識・理解

研究報告コード R070000114
整理番号 R070000114
掲載日 2008年4月11日
研究者
  • 河原 達也
研究者所属機関
報告名称 人間どうしの音声コミュニケーションの認識・理解
報告概要 情報技術の進展により、討論や講演などのディジタルアーカイブ化が可能になったが、単に録音しただけでは、検索やブラウジングが困難である。また、その書き起こしには莫大な手間を要するにもかかわらず、話し言葉には言い淀みや冗長な表現が多いので、読みづらい反面、音声に含まれるニュアンスや感情などの情報が失われてしまう。そこで、エッセンスとなる情報(話者IDや発話内容・意図など)を抽出し、実際の音声メディアと階層的にリンクしたアーカイブを設計する。逆に、このような組織的な構造を抽出するには、音声コミュニケーションの分析・モデル化を必要とする。特に、従来の音声認識・理解の研究が主としてヒューマン・マシン・インタフェースの観点から定式化されていたのに対して、本研究ではヒューマン・ヒューマン・コミュニケーションを指向して、図1に示すように様々な話し言葉音声を対象として以下の問題に取組んだ。(1)話し言葉音声のモデル化と自動認識 自動音声認識技術は実用化されつつあるが、既存のシステムは人間が機械に対して丁寧に発声することを前提としており、人間どうしの自然な話し言葉にはほとんど対応できない。これに対して、実際の学会講演などの大規模なデータベースを用いて、話し言葉に固有の発音変形や言語的多様性の精密なモデル化を行った。(2)話し言葉の自動整形と自動要約 話し言葉をそのまま書き起こしても(たとえ100%の認識率でも)、読みづらいだけであり、書き言葉に整形する必要がある。その上で、有用なインデックスとなる重要フレーズ・文を自動抽出する。このような音声コミュニケーションの理解の観点からは、一字一句を正確に書き取ることよりもポイントを把握することが重要であり、このような観点から自動音声認識の枠組みを見直す。(3)討論・対話における話者のモデル化と自動認識 討論や会話においては、「何を話しているか」とともに「誰が話しているか」が重要なインデックスとなる。そこで、複数の話者が話している状況において、自動的に話者を分類・同定する方法も研究する。また、人間とコンピュータとの会話、子供とロボットとの会話を多数収集・分析し、音響的・言語的な様々な情報から、話者のタイプ(背景知識レベルなど)や心的状態(緊張状態など)を自動推定する方法についても検討する。
画像

※ 画像をクリックすると拡大します。

R070000114_01SUM.gif R070000114_02SUM.gif R070000114_03SUM.gif R070000114_04SUM.gif R070000114_05SUM.gif
研究分野
  • 聴覚・音声モデル
関連発表論文 (1) M. Nishida and T. Kawahara. Speaker model selection based on Bayesian information criterion applied to unsupervised speaker indexing. IEEE Trans. Speech & Audio Processing, (accepted for publication), 2005.
(2) Y.Akita and T.Kawahara. Language model adaptation based on PLSA of topics and speakers for automatic transcription of panel discussions. IEICE Trans., (accepted for publication), 2005.
(3) 駒谷和範,上野晋一,河原達也,奥乃博.音声対話システムにおける適応的な応答生成を行うためのユーザモデル.電子情報通信学会論文誌,Vol.J87-DII,No.10,pp-1921--1928,2004,
(4) T.Kawahara, M.Hasegawa, K. Shitaoka, T.Kitade, and H.Nanjo. Automatic indexing of lecture presentations using unsupervised learning of presumed discourse markers. IEEE Trans. Speech & Audio Processing, Vol.12, No.4, pp. 409--419, 2004.
(5) H.Nanjo and T.Kawahara. Language model and speaking rate adaptation for spontaneous presentation speech recognition. IEEE Trans. Speech & Audio Processing, Vol.12, No.4, pp. 391--400, 2004.
(6) 西田昌史,河原達也.BICに基づく統計的話者モデル選択による教師なし話者インデキシング,電子情報通信学会論文誌,Vol.J87-DII,No.2,pp.504-512,2004
(7) 秋田祐哉,河原達也.多数話者モデルを用いた討論音声の教師なし話者インデキシング.電子情報通信学会論文誌,Vol.J87-DII,No.2,pp.495--503,2004.
(8) H.Nanjo and T.Kawahara. A new ASR evaluation measure and minimum Bayes-risk decoding for open-domain speech understanding. In Proc. IEEE-ICASSP, (accepted for presentation), 2005.
(9) Y.Akita and T.Kawahara. Generalized statistical modeling of pronunciation variations using variable-length phone context. In Proc. IEEE-ICASSP, (accepted for presentation), 2005,
(10) Y.Akita and T.Kawahara. Langnage model adaptation based on PLSA of topics and speakers In Proc. ICSLP, pp.1045--1048, 2004,
(11) Y.Akita, M.Hasegawa, and T.Kawahara. Automatic audio archiving system for panel discussions. In Proc. IEEE Int'l Conf. Multimedia and Expo (ICME), 2004.
(12) M.Nishida and T.Kawahara. Speaker indexing and adaptation using speaker clustering based on statistical model selection. In Proc. IEEE-ICASSP, Vol.1, pp.353--856, 2004.
(13) Y.Akita and T.Kawahara. Unsupervised speaker indexing using anchor models and automatic transcription of discussions. In Proc. INTERSPEECH, pp.2985--2988, 2003.
(14) M.Nishida and T.Kawahara. Speaker model selection using Bayesian information criterion for speaker indexing and speaker adaptation. In Proc. INTERSPEECH, pp.1849--1852, 2003.
(15) K. Komatani, S. Ueno, T. Kawahara, and H. G . Okuno. User modeling in spoken dialogue systems for flexible guidance generation. In proc. INTERSPEECH, pp. 745--748, 2003.
(16) K. Komatani, S. Ueno, T. Kawahara, and H. G. Okuno. Flexible guidance generation using user model in spoken dialogue systems. In Proc. Annual Meeting of Association for Computational Linguistics (ACL), pp. 256--263, 2003.
(17) K. Komatani, F. Adachi, S. Ueno, T. Kawahara, and H. G. Okuno. Flexible spoken dialogue system based on user models and dynamic generation of VoiceXML csripts. In Proc. SIGdial Workshop Discourse & Dialogue. pp. 87--96, 2003.
(18) Y. Akita, M. Nishida, and T. Kawahara. Automatic transcription of discussions using unsupervised speaker indexing. In Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition, pp.79--82, 2003.
(19) M. Nishida and T. Kawahara. Unsupervised speaker indexing using speaker model selection based on Bayesian information criterion. In Proc. IEEE-ICASSP, Vol. 1, pp. 172-175, 2003.
(20) 駒谷和範,上野晋一,河原達也,奥乃博. ユーザモデルを導入したバス運行情報案内システムの実験的評価. 情報処理学会研究報告, SLP-47-12, 2003.(山下記念賞受賞)
(21) 上野晋一,駒谷和範, 河原達也,奥乃博. 京都市バス運行情報案内システムの試験評価とユーザモデルの導入. 人工知能学会全国大会論文集, 2C2-03, 2003.(優秀賞受賞)
研究制度
  • 戦略的創造研究推進事業 さきがけタイプ(旧若手個人研究推進事業を含む)/強調と制御
研究報告資料
  • 河原 達也. 人間どうしの音声コミュニケーションの認識・理解. さきがけライブ2004 「強調と制御」領域 研究報告会講演要旨集 インタラクションとコミュニケーション ~主観の客観科学を目指して~ (研究期間2001-2004), 2005. p.12 - 20.

PAGE TOP