Top > Search of Japanese Patents > ACOUSTIC MODEL LEARNING DEVICE, VOICE RECOGNITION DEVICE, AND COMPUTER PROGRAM FOR ACOUSTIC MODEL LEARNING

ACOUSTIC MODEL LEARNING DEVICE, VOICE RECOGNITION DEVICE, AND COMPUTER PROGRAM FOR ACOUSTIC MODEL LEARNING

Patent code P110003627
File No. 2470
Posted date Jun 27, 2011
Application number P2009-094212
Publication number P2010-243914A
Patent number P5366050
Date of filing Apr 8, 2009
Date of publication of application Oct 28, 2010
Date of registration Sep 20, 2013
Inventor
  • (In Japanese)三村 正人
  • (In Japanese)河原 達也
Applicant
  • (In Japanese)国立大学法人京都大学
Title ACOUSTIC MODEL LEARNING DEVICE, VOICE RECOGNITION DEVICE, AND COMPUTER PROGRAM FOR ACOUSTIC MODEL LEARNING
Abstract PROBLEM TO BE SOLVED: To provide an acoustic model learning device for effectively generating an acoustic model for voice recognition and dictation of spoken words of a type where there is a document style text DB having already been shaped.
SOLUTION: The acoustic model learning device 78 includes a language model estimating section 188 for estimating a language model 136 of dictation faithful to the actual spoken contents from a language model 186 learned with a document style text (for example, conference minutes) 42 acquired by dictation and shaping of a voice DB (for example, discussion voice corpus) 40 by a human being, a phoneme labeling section 144 for dictation it, attaching a phoneme label to the voice DB 40, and outputting a voice DB 80 with a phoneme label by voice recognition using an initial audio model 130 and the language model 136 of spoken word style dictation estimated by the language model estimating section 188, and an acoustic model learning section for performing the learning of the acoustic model using the voice DB 80 with the phoneme label as learning data.
Outline of related art and contending technology (In Japanese)


近年、大語彙連続音声認識の主要な対象は、音声認識用に丁寧に発音した音声(以下「読上音声」と呼ぶ。)から、講演及び会議などの話し言葉の音声(以下「話し言葉音声」と呼ぶ。)に移行しつつある。



話し言葉音声は読上音声では見られないような流暢でない現象を伴う。これらの現象とは、例えば、言直し、言いよどみ、「あー」とか「うー」というようなフィラーと呼ばれる発声の挿入、日本語の場合の助詞の欠落、及び発音の怠けなどである。



一般に、音声を統計的音声認識技術を用いて音声認識するためには、音響モデルが必要である。音響モデルの学習には、音声とその忠実な書き起こしとの組である音声コーパスを準備しなければならない。音声認識の精度を高めるためには、音声コーパスの規模は大きい方が望ましい。通常、こうした音声コーパスの作成は人手で行なわれる。しかし話し言葉音声の場合、上記したような現象のために人手による書き起こしの作成には多大なコストがかかる。したがって、大規模なコーパスの構築は極めて困難である。その結果、音声認識に必要な音響モデルの学習のためのデータ量不足が問題となる。



この問題に対処するため、Lamelらは、非特許文献1において、lightly supervised training(以下「準教師付学習」と呼ぶ。)と呼ばれるアプローチを提案している。このアプローチでは、発話の忠実な書き起こしの代わりに、低コストで利用できる整形済テキストデータから音響モデルの学習のための音素ラベルを作成する。非特許文献1では、ニュース音声を対象として以下のように音素ラベルを付与することが提案されている。



多くの放送には、字幕が付与される。この字幕を放送に対するテキストデータとして音素ラベルを作成することが考えられる。しかし、非特許文献1によれば、字幕は多くの誤りを含み、そのままでは音素ラベルとして利用できない。そこで、非特許文献1では、字幕のテキストデータから学習した言語モデルを用いて音声認識を行なうことで、放送音声に対する音素ラベルを作成している。非特許文献1によれば、ニュース音声には音楽及びいわゆるCMなどの非音声区間が多数存在するため、音声認識結果の信頼性は高くない。そこで非特許文献1は、音声認識の後、その結果と字幕とを再度マッチングさせ、合致した区間の音声認識結果のみを用いるのが効果的であると報告している。



非特許文献2は、同様に放送音声を対象としているが、字幕には現れない表現にも対応するために、字幕から構築した言語モデルと、別途構築したベースライン言語モデルとを、前者に大きな重みをかけて合成し、この言語モデルを用いて音声認識を行なっている。非特許文献2は、作成された音素ラベルを用いた学習データの追加により、通常のML(最尤)学習だけでなく、識別学習の一種である音素誤り最小(MPE:Minimum Phone Error)学習においても認識精度が向上したと報告している。

Field of industrial application (In Japanese)


この発明は音声認識技術に関し、特に、話し言葉の音声を精度高く認識可能な音声認識装置、及びそのための音響モデルの学習技術に関する。

Scope of claims (In Japanese)
【請求項1】
 
音声データベースを人間が書き起こし、整形して得られた文書スタイルテキストにより学習した言語モデルから、実際の発言内容に忠実な話し言葉スタイル書き起こしの言語モデルを推定するための言語モデル推定手段と、
予め準備された初期音響モデルと、前記言語モデル推定手段により推定された話し言葉スタイル書き起こしの言語モデルとを用いた音声認識により、前記音声データベースに書き起こしとその音素ラベルとを付すための音素ラベリング手段と、
前記音素ラベリング手段により音素ラベルが付された前記音声データベースを学習データとして、音声認識用音響モデルの学習又は更新を行なうための音響モデル学習手段とを含む、音響モデル学習装置。

【請求項2】
 
前記言語モデル推定手段は、
前記音声データベースの発話のターンごとに対応した文書スタイルテキストから、ターンごとのN-グラム言語モデルを作成するためのN-グラム作成手段と、
前記N-グラム作成手段により作成されたターンごとのN-グラム言語モデルの各々から、前記話し言葉スタイル書き起こしの話し言葉用N-グラム言語モデルを推定するための手段とを含み、
前記音素ラベリング手段は、
前記音声データベースのターンごとに、前記話し言葉用N-グラム言語モデルのうち、対応するN-グラム言語モデルを選択するための言語モデル選択手段と、
前記音声データベースの発話のターンごとに、前記言語モデル選択手段により選択されたN-グラム言語モデルと、前記初期音響モデルとを用いて音声認識を行なって、前記音声データベースのターンごとに書き起こしとその音素ラベルとを付与するための音声認識手段とを含む、請求項1に記載の音響モデル学習装置。

【請求項3】
 
前記音声データベースの一部の話し言葉スタイル書き起こしと、前記文書スタイルテキストのうちで当該一部に対応する部分とに基づいて作成された対応付けコーパスに基づいて、前記文書スタイルテキスト内の表現から前記話し言葉スタイル書き起こしの表現への変換を統計的に示す変換モデルを学習するための変換モデル学習手段をさらに含み、
前記言語モデル推定手段は、ターンごとのN-グラム言語モデルの各々に対し、前記変換モデルを適用することにより、前記話し言葉スタイル書き起こしのN-グラム言語モデルを推定するための手段を含む、請求項1に記載の音響モデル学習装置。

【請求項4】
 
前記音声データベースは何らかの会議の音声を収録した審議音声コーパスであり、
前記文書スタイルテキストは、前記会議の会議録である、請求項1~請求項3のいずれかに記載の音響モデル学習装置。

【請求項5】
 
所定の音声データベースを学習データとして、請求項1~請求項4のいずれかに記載の音響モデル学習装置により学習が行なわれた前記音声認識用音響モデルを記憶するための音響モデル記憶手段と、
前記音響モデル記憶手段に記憶された前記音声認識用音響モデルと、音声認識用言語モデルとを用いて、入力される発話データに対する音声認識を行なうための音声認識手段とを含む、音声認識装置。

【請求項6】
 
コンピュータを、
音声データベースを人間が書き起こし、整形して得られた文書スタイルテキストにより学習した言語モデルから、実際の発言内容に忠実な話し言葉スタイル書き起こしの言語モデルを推定するための言語モデル推定手段と、
予め準備された初期音響モデルと、前記言語モデル推定手段により推定された話し言葉スタイル書き起こしの言語モデルとを用いた音声認識により、前記音声データベースに書き起こしとその音素ラベルとを付すための音素ラベリング手段と、
前記音素ラベリング手段により音素ラベルが付された前記音声データベースを学習データとして、音声認識用音響モデルの学習又は更新を行なうための音響モデル学習手段として機能させる、音響モデル学習のためのコンピュータプログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2009094212thum.jpg
State of application right Registered
Please contact us by e-mail or facsimile if you have any interests on this patent. Thanks.


PAGE TOP

close
close
close
close
close
close
close