Top > Search of Japanese Patents > DICTIONARY FOR SPEECH RECOGNITION UTILIZED IN SPEECH RECOGNITION DEVICE AND LEARNING METHOD OF LANGUAGE MODEL FOR SPEECH RECOGNITION

DICTIONARY FOR SPEECH RECOGNITION UTILIZED IN SPEECH RECOGNITION DEVICE AND LEARNING METHOD OF LANGUAGE MODEL FOR SPEECH RECOGNITION

Patent code P110005763
File No. P10-002
Posted date Sep 13, 2011
Application number P2010-014372
Publication number P2011-154099A
Patent number P5703491
Date of filing Jan 26, 2010
Date of publication of application Aug 11, 2011
Date of registration Mar 6, 2015
Inventor
  • (In Japanese)西▲崎▼ 博光
  • (In Japanese)関口 芳廣
  • (In Japanese)上平 拓弥
  • (In Japanese)高岡 充
Applicant
  • (In Japanese)国立大学法人山梨大学
Title DICTIONARY FOR SPEECH RECOGNITION UTILIZED IN SPEECH RECOGNITION DEVICE AND LEARNING METHOD OF LANGUAGE MODEL FOR SPEECH RECOGNITION
Abstract PROBLEM TO BE SOLVED: To drastically reduce a rate of a malfunction by discarding utterance when the utterance which is not assumed by a device is outputted, in various information devices including a speech recognition system.
SOLUTION: In various information processing devices 1 including a speech recognition system, a language model learning means 10 creates a language model 7 by modeling a sentence which is not assumed by the information processing device 1, and a speech recognition dictionary creation device 11 creates a speech recognition dictionary 8 which registers a word that is not assumed. When a speech recognition means 3 performs speech recognition on human utterance which is inputted by a speech input means 2 by using the language model 7, the speech recognition dictionary 8 and a sound model 9, since a tag (label) is attached to a voice recognition result 6 for indicating that a word is not assumed by the various information processing devices 1, a malfunction in an output means 5 is prevented by automatically discarding utterance which is not assumed by the information processing device 1 in a processing means 4.
Outline of related art and contending technology (In Japanese)



音声認識システムを利用した各種情報処理装置(例えば、音声対話システム、ロボット、音声入力によるデータベース検索システム、カーナビ、音声翻訳システム等)では、利用者の発話を音声認識した際の音声認識誤りにより、装置に誤動作が生じることが多々ある。例えば,車内の会話を自動的に取得し,会話に関係する情報をカーナビゲーション上に表示するシステムや,コールセンター等において電話音声を取得し,電話会話内容に関する情報を自動的にデータベース検索し,会話内容と関連する情報を表示するようなシステムにおいて,全く関係のない会話なのに情報表示端末に情報が表示されると,利用者にとっては至極迷惑であるし,誤操作を誘導し業務に支障をきたすことが考えられる。音声認識システムを備えた情報処理装置においては,装置が想定しない発話の検出は大変重要である。





これを防ぐ方法としては,情報処理装置に入力された音声が本当に装置を動作させるために必要な発話であるか否かを判定し,装置を動作させるために必要な発話ではないあるいは想定しない発話と判定されたときには,装置の動作を行わない等の対処を行うことが必要となる。

装置を動作させるために必要な発話か否かを判定する方法として,多くの手法が提案されている。例えば,音声認識精度自体を改善することで誤認識を少なくし(公開論文が多数存在している)、認識結果に基づく判別を行う方法,音声認識結果に信頼度(スコア)を導入し信頼性が低いときは結果を棄却する試み(非特許文献1)、ドメイン外発話検出(非特許文献2)等、多くの手法が公開されている。

音声認識自体の精度を改善する試みは,音声認識が良くなれば,装置を動作させる必要のない発話を正しく音声認識し文字化できるようになるため,その文字化された認識結果を処理することで,無関係発話か否かの判別が可能になる。

認識結果の信頼度を利用する方法では,各種装置で利用されている音声認識システムが,装置を操作するための発話と関係のない発話をうまく音声認識できないという特徴を利用する。うまく音声認識できないというのは,音声認識システムが保持しているモデルと音声から抽出した特徴量とのマッチングが上手くいかずに,マッチングのスコア(信頼度)が低下してしまうということである。音声認識結果の信頼度が低い場合に,無関係発話と判定できる。

ドメイン外発話検出は,本発明で提案する手法と最も類似した手法である。例えば,非特許文献2の方法では,入力された発話の音声認識結果を話題分類し,想定外発話のトピックに分類されたときに,無関係発話と判定することができる。

しかし,これらの手法の多くは,音声認識システムの出力結果を利用しているため,音声認識システムの音声認識性能に大きく依存する。すなわち,音声認識システム内のデコーダ処理アルゴリズムや音響モデル,言語モデル(と音声認識辞書)の精度に大きく依存する手法である。モデルの精度が高くないと,音声認識結果に付与される信頼度も信頼性が低い。結局は,高い精度で想定しない発話を判定するためには,音声認識システムが保持している音響モデルや言語モデルを精度良いものにしなくてはならない。

音響モデルは,a,i,u,e,o等の音韻情報をモデル化したもので,最近は統計的手法により隠れマルコフモデル(HMM)でモデル化されるのが一般的である。精度の高い音響モデルを学習する方法は多くの文献で提案されているため,音響モデルの学習方法は本発明の対象外とする。

言語モデルは,N-gramによって統計的な単語のN個つながりを学習するのが一般的となっている(例えば,「学校へ行く」という文章からできるモデルは,P(へ|学校),P(行く|へ)である)。しかしながら,N個の単語のつながりを学習するためには,大量のテキスト文章データが必要となり,このテキスト文章データを情報処理装置のタスクに併せて作成するのに膨大な時間と労力が必要である。これを解決するために,クラス言語モデル(単語を品詞などのカテゴリーに分類し,カテゴリーのN個つながりでモデルを持つこと)が提案されているが,それでも大量のテキスト文章データから学習した単語N-gramに比べると音声認識の性能が低下する。

また,音声対話システムなどでは,統計的N-gramモデルではなく,発話のパターンやルールを考慮した文法モデルによりモデル化された言語モデルが使われることが多い。文法モデルにおいても,モデル化された発話パターン以外の発話がなされたとき,学習されているパターンのいずれかに無理やり当てはめられるため,誤認識を起こしてしまう。

以上のことから,一般的な言語モデルを用いていては,情報処理装置が想定しない発話が入力されたとき,それを正しく棄却することが難しい。

Field of industrial application (In Japanese)


本発明は,音声認識システムを利用している音声対話装置などの各種情報処理装置において,音声認識誤りによってそれらの装置の誤動作を防ぐための音声認識装置用音声認識辞書および言語モデルの学習方法である。音声認識システムを持つ情報処理装置を正しく動作させるために必要な発話と,装置が想定しない音声発話を正しく判定することで,装置の誤動作を防ぐことを目的とする。

Scope of claims (In Japanese)
【請求項1】
 
言語モデル学習手段と
音声認識辞書作成手段と
ガベージ単語作成手段を備え、
前記言語モデル学習手段は、言語モデル学習用文章データを形態素解析して情報処理装置で必要とされる有効単語を得、一般的なテキスト文章データから得られる単語又は仮想単語から前記有効単語を除いて得られる前記情報処理装置で不必要なガベージ単語が属するガベージクラス列を混合させ、言語モデルを学習することを特徴とする言語モデル・音声認識辞書作成装置。

【請求項2】
 
前記言語モデル学習手段は、前記言語モデル学習用文章データの、得られた前記有効単語を、単語の品詞名やある特定の意味を表すカテゴリーであるクラスに置き換えて変換した学習文章を作成した後、前記ガベージ単語が属するガベージクラス列を前記学習文章に混合させることを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。

【請求項3】
 
前記ガベージ単語作成手段は、一般的なテキスト文章データの集合を形態素分割して得た単語から、前記有効単語を除くことにより、前記ガベージ単語を作成することを特徴とする請求項1又は2のいずれかに記載の言語モデル・音声認識辞書作成装置。

【請求項4】
 
前記ガベージ単語作成手段は、任意のN個の平仮名をランダムに組み合わせた仮想単語から、前記有効単語を除くことにより、前記ガベージ単語を作成することを特徴とする請求項1又は2のいずれかに記載の言語モデル・音声認識辞書作成装置。

【請求項5】
 
前記音声認識辞書作成手段が、前記有効単語と前記ガベージ単語の発音情報を、音響モデルと照らし合わせることで発音系列に変換し、音声認識辞書を作成することを特徴とする請求項1から4のいずれかに記載の言語モデル・音声認識辞書作成装置。

【請求項6】
 
前記請求項1から5のいずれかに記載の言語モデル・音声認識辞書作成装置により作成された言語モデルと音声認識辞書を用いる音声認識手段を有する前記情報処理装置であって、前記ガベージ単語を音声認識したときには前記ガベージ単語であることを認識するラベルを付与することを特徴とする音声認識手段を有する情報処理装置。

【請求項7】
 
前記情報処理装置がカーナビゲーションシステムであって、お店や地名の検索に用いられることを特徴とする請求項6に記載の音声認識手段を有する情報処理装置。

【請求項8】
 
前記情報処理装置がデータベース検索装置であって、複数の言語モデルと、複数の認識辞書を備え、
データベース検索制御部により選択した言語モデルと認識辞書を用いて、データベース検索用単語候補を出力することを特徴とする請求項6に記載の音声認識手段を有する情報処理装置。

【請求項9】
 
前記情報処理装置が、さらにデコーディング部を備え、
前記デコーディング部は、切り出した音声から抽出した特徴量と音響モデルの適合性を判断し、選択された言語モデルと認識辞書を用いてデータベース検索用単語候補を出力することを特徴とする請求項8に記載の音声認識手段を有する情報処理装置。

【請求項10】
 
前記情報処理装置が、病院患者データベース検索装置であって、
前記言語モデルと認識辞書は、人名を検索する場合と日時を検索する場合で切り替えることを特徴とする請求項9に記載の音声認識手段を有する情報処理装置。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2010014372thum.jpg
State of application right Registered
Please feel free to contact us by email or facsimile if you have any interests in this patent.


PAGE TOP

close
close
close
close
close
close
close