TOP > 国内特許検索 > 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム

音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム

国内特許コード P110003627
整理番号 2470
掲載日 2011年6月27日
出願番号 特願2009-094212
公開番号 特開2010-243914
登録番号 特許第5366050号
出願日 平成21年4月8日(2009.4.8)
公開日 平成22年10月28日(2010.10.28)
登録日 平成25年9月20日(2013.9.20)
発明者
  • 三村 正人
  • 河原 達也
出願人
  • 国立大学法人京都大学
発明の名称 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム
発明の概要

【課題】過去に整形済の文書スタイルテキストDBが存在している類の話し言葉の音声認識・書き起こしのための音響モデルを、効果的に作成する音響モデル学習装置を提供する。
【解決手段】音響モデル学習装置78は、音声DB(例えば審議音声コーパス)40を人間が書き起こし、整形して得られた文書スタイルテキスト(例えば会議録)42により学習した言語モデル186から、実際の発言内容に忠実な書き起こしの言語モデル136を推定する言語モデル推定部188と、初期音響モデル130及び言語モデル推定部188により推定された話し言葉スタイル書き起こしの言語モデル136を用いた音声認識により、音声DB40に書き起こしとその音素ラベルを付して音素ラベル付音声DB80を出力する音素ラベリング部144と、音素ラベル付音声DB80を学習データとして、音響モデルの学習を行なう音響モデル学習部とを含む。
【選択図】図3

従来技術、競合技術の概要


近年、大語彙連続音声認識の主要な対象は、音声認識用に丁寧に発音した音声(以下「読上音声」と呼ぶ。)から、講演及び会議などの話し言葉の音声(以下「話し言葉音声」と呼ぶ。)に移行しつつある。



話し言葉音声は読上音声では見られないような流暢でない現象を伴う。これらの現象とは、例えば、言直し、言いよどみ、「あー」とか「うー」というようなフィラーと呼ばれる発声の挿入、日本語の場合の助詞の欠落、及び発音の怠けなどである。



一般に、音声を統計的音声認識技術を用いて音声認識するためには、音響モデルが必要である。音響モデルの学習には、音声とその忠実な書き起こしとの組である音声コーパスを準備しなければならない。音声認識の精度を高めるためには、音声コーパスの規模は大きい方が望ましい。通常、こうした音声コーパスの作成は人手で行なわれる。しかし話し言葉音声の場合、上記したような現象のために人手による書き起こしの作成には多大なコストがかかる。したがって、大規模なコーパスの構築は極めて困難である。その結果、音声認識に必要な音響モデルの学習のためのデータ量不足が問題となる。



この問題に対処するため、Lamelらは、非特許文献1において、lightly supervised training(以下「準教師付学習」と呼ぶ。)と呼ばれるアプローチを提案している。このアプローチでは、発話の忠実な書き起こしの代わりに、低コストで利用できる整形済テキストデータから音響モデルの学習のための音素ラベルを作成する。非特許文献1では、ニュース音声を対象として以下のように音素ラベルを付与することが提案されている。



多くの放送には、字幕が付与される。この字幕を放送に対するテキストデータとして音素ラベルを作成することが考えられる。しかし、非特許文献1によれば、字幕は多くの誤りを含み、そのままでは音素ラベルとして利用できない。そこで、非特許文献1では、字幕のテキストデータから学習した言語モデルを用いて音声認識を行なうことで、放送音声に対する音素ラベルを作成している。非特許文献1によれば、ニュース音声には音楽及びいわゆるCMなどの非音声区間が多数存在するため、音声認識結果の信頼性は高くない。そこで非特許文献1は、音声認識の後、その結果と字幕とを再度マッチングさせ、合致した区間の音声認識結果のみを用いるのが効果的であると報告している。



非特許文献2は、同様に放送音声を対象としているが、字幕には現れない表現にも対応するために、字幕から構築した言語モデルと、別途構築したベースライン言語モデルとを、前者に大きな重みをかけて合成し、この言語モデルを用いて音声認識を行なっている。非特許文献2は、作成された音素ラベルを用いた学習データの追加により、通常のML(最尤)学習だけでなく、識別学習の一種である音素誤り最小(MPE:Minimum Phone Error)学習においても認識精度が向上したと報告している。

産業上の利用分野


この発明は音声認識技術に関し、特に、話し言葉の音声を精度高く認識可能な音声認識装置、及びそのための音響モデルの学習技術に関する。

特許請求の範囲 【請求項1】
音声データベースを人間が書き起こし、整形して得られた文書スタイルテキストにより学習した言語モデルから、実際の発言内容に忠実な話し言葉スタイル書き起こしの言語モデルを推定するための言語モデル推定手段と、
予め準備された初期音響モデルと、前記言語モデル推定手段により推定された話し言葉スタイル書き起こしの言語モデルとを用いた音声認識により、前記音声データベースに書き起こしとその音素ラベルとを付すための音素ラベリング手段と、
前記音素ラベリング手段により音素ラベルが付された前記音声データベースを学習データとして、音声認識用音響モデルの学習又は更新を行なうための音響モデル学習手段とを含む、音響モデル学習装置。

【請求項2】
前記言語モデル推定手段は、
前記音声データベースの発話のターンごとに対応した文書スタイルテキストから、ターンごとのN-グラム言語モデルを作成するためのN-グラム作成手段と、
前記N-グラム作成手段により作成されたターンごとのN-グラム言語モデルの各々から、前記話し言葉スタイル書き起こしの話し言葉用N-グラム言語モデルを推定するための手段とを含み、
前記音素ラベリング手段は、
前記音声データベースのターンごとに、前記話し言葉用N-グラム言語モデルのうち、対応するN-グラム言語モデルを選択するための言語モデル選択手段と、
前記音声データベースの発話のターンごとに、前記言語モデル選択手段により選択されたN-グラム言語モデルと、前記初期音響モデルとを用いて音声認識を行なって、前記音声データベースのターンごとに書き起こしとその音素ラベルとを付与するための音声認識手段とを含む、請求項1に記載の音響モデル学習装置。

【請求項3】
前記音声データベースの一部の話し言葉スタイル書き起こしと、前記文書スタイルテキストのうちで当該一部に対応する部分とに基づいて作成された対応付けコーパスに基づいて、前記文書スタイルテキスト内の表現から前記話し言葉スタイル書き起こしの表現への変換を統計的に示す変換モデルを学習するための変換モデル学習手段をさらに含み、
前記言語モデル推定手段は、ターンごとのN-グラム言語モデルの各々に対し、前記変換モデルを適用することにより、前記話し言葉スタイル書き起こしのN-グラム言語モデルを推定するための手段を含む、請求項1に記載の音響モデル学習装置。

【請求項4】
前記音声データベースは何らかの会議の音声を収録した審議音声コーパスであり、
前記文書スタイルテキストは、前記会議の会議録である、請求項1~請求項3のいずれかに記載の音響モデル学習装置。

【請求項5】
所定の音声データベースを学習データとして、請求項1~請求項4のいずれかに記載の音響モデル学習装置により学習が行なわれた前記音声認識用音響モデルを記憶するための音響モデル記憶手段と、
前記音響モデル記憶手段に記憶された前記音声認識用音響モデルと、音声認識用言語モデルとを用いて、入力される発話データに対する音声認識を行なうための音声認識手段とを含む、音声認識装置。

【請求項6】
コンピュータを、
音声データベースを人間が書き起こし、整形して得られた文書スタイルテキストにより学習した言語モデルから、実際の発言内容に忠実な話し言葉スタイル書き起こしの言語モデルを推定するための言語モデル推定手段と、
予め準備された初期音響モデルと、前記言語モデル推定手段により推定された話し言葉スタイル書き起こしの言語モデルとを用いた音声認識により、前記音声データベースに書き起こしとその音素ラベルとを付すための音素ラベリング手段と、
前記音素ラベリング手段により音素ラベルが付された前記音声データベースを学習データとして、音声認識用音響モデルの学習又は更新を行なうための音響モデル学習手段として機能させる、音響モデル学習のためのコンピュータプログラム。
産業区分
  • 電子応用機器
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2009094212thum.jpg
出願権利状態 権利存続中
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close