TOP > 技術シーズ検索 > 音声入力によるテキスト検索装置

音声入力によるテキスト検索装置

シーズコード S090003154
掲載日 2010年3月26日
研究者
  • 藤井 敦
  • 伊藤 克亘
  • 石川 徹也
技術名称 音声入力によるテキスト検索装置
技術概要 初期検索を実行し、ユーザの検索要求に関連する文書を選択的に取得する。検出された未知語に対応する語を探索し、未知語と置き換えることで検索要求を補完する。補完された検索要求を用いて再検索を行い、最終的な検索結果が得られる。未知語の自動補完は次のように行う。音声認識で検出された未知語の音韻系列を、初期検索で取得された上位文書中の索引語に対応付けることによって単語として正しく認識する。未知語の自動補完では、複数の候補から適切な索引語を選択するための曖昧性解消が必要である。索引語が満たす条件として次の3つの基準を設定した。補完対象の未知語との音韻的な類似度が高く、上位文書における出現頻度が高い。またより上位の文書に出現することである。これらを確率論的な枠組みで定式化すると、未知語補完はそれぞれの基準による確率の積で計算されるスコアを最大化するパラメータの選択に相当する。DPマッチングによって音韻単位で比較し、共通して含まれる音韻列を特定、相対頻度あるいはOkapi法で計算されるスコアで代用する。対数を用いることで、第2、第3項の影響力が相対的に小さくなるように制御する。
画像

※ 画像をクリックすると拡大します。

S090003154_01SUM.gif
研究分野
  • 検索技術
  • パターン認識
  • 入出力装置
展開可能なシーズ 音声認識システムでは語彙サイズは数万語に制限されており、実用的な検索システムに比べると極端に小さい。情報検索では低頻度語ほど効果的な索引語になりやすい。音声入力型の検索システムにおいて未知語問題は本質的に不可避である。音声認識でカバーできない単語を検索用の索引語によって補完することにより、音声発話の誤認識をなくす。検索精度の向上を図った音声入力によるテキスト検索装置を提供する。
検出された未知語と音韻的に等価な語もしくは類似する語を探索してユーザの発話中の未知語を自動的に補完し、再検索を行い最終的な検索結果を得る。音声認識手段、テキスト検索手段、未知語補完手段を備え、音声認識用の辞書に登録されていない未知語を検索用の索引語によって自動的に補完する。辞書、音響モデル、言語モデルを有し、検索対象テキストコレクションと、補完された検索要求手段とに係わる。
用途利用分野 音声入力によるテキスト検索装置
出願特許   特許 国際特許分類(IPC)
( 1 ) 独立行政法人産業技術総合研究所, . 藤井 敦, 伊藤 克亘, 石川 徹也, . 音声入力によるテキスト検索装置. 特開2003-271629. 2003-09-26
  • G06F  17/30     
  • G10L  15/06     
  • G10L  15/20     
  • G10L  15/22     

PAGE TOP