TOP > 国内特許検索 > 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム

調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム コモンズ

国内特許コード P110002076
整理番号 S2008-0946-N0
掲載日 2011年3月31日
出願番号 特願2008-241072
公開番号 特開2010-072446
登録番号 特許第5300000号
出願日 平成20年9月19日(2008.9.19)
公開日 平成22年4月2日(2010.4.2)
登録日 平成25年6月28日(2013.6.28)
発明者
  • 新田 恒雄
出願人
  • 国立大学法人豊橋技術科学大学
発明の名称 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム コモンズ
発明の概要

【課題】未知語への対応が可能であり、音声対話や音声検索からの要求に耐えうる高い音素識別精度を有する調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラムを提供する。
【解決手段】調音特徴抽出装置では、入力部201より入力された音声がA/D変換部202においてデジタル変換され、特徴分析部210においてフーリエ解析及びフィルタリングされた結果、音声スペクトルデータが得られる。次いで、調音特徴抽出部220において、調音特徴の時系列データである調音特徴系列が抽出される。そして調音運動修正部230において、調音特徴系列の変位成分より速度成分と加速度成分とが抽出され、さらに各成分に基づき、ニューラルネットワークを経ることにより、調音運動が修正される。そして修正された調音運動に基づき、単語分類部204において該当する単語が検索され、音声認識処理が実行される。
【選択図】図2

従来技術、競合技術の概要


音声を用いたユーザインタフェースとして音声認識技術が一般的に知られている。音声認識技術では、周波数スペクトルなどの特徴分析処理結果をもとに、音素・音節・単語などを認識単位とするパターン認識処理を行うことが一般に行われてきた。これは、人間の聴覚神経系がスペクトル分析能力を持ち、続いて大脳において高次言語処理を行うという推測に基づいている。これまで開発されている音声認識装置は、音響特徴から直接単語分類を行う。これに対して近年の脳研究から、人間は音響信号としての音声ではなく、調音運動としての音声を知覚しているとする仮説が有力視されつつある(非特許文献1参照)



標準的な音声認識技術の概要について、図15を参照して説明する。図15は、音声認識装置に搭載される標準的な音声認識技術の一例を示す機能ブロック図である。図15に示すように、音声認識に必要な機能ブロックとして、入力部101、A/D変換部102、特徴分析部103、単語分類部104、出力部105、及び記憶部106が設けられている。また記憶部106には、単語発音辞書107、隠れマルコフモデル(HMM)108、言語モデル109、及びその他のデータが記憶される。この音声認識装置では、認識対象単語セットを予め定め,言語モデル109(単語間の連鎖確率をテーブルに表現したもの。通常,三単語連鎖の確率が利用される。これを3(tri)-gramという。)を参照しながら、音声信号中の単語列が探索される。



入力部101は、外部から入力される音声を受け付け、アナログ電気信号に変換するために設けられる。A/D変換部102は、入力部101にて受け付けられたアナログ信号をデジタル信号に変換するために設けられる。特徴分析部103は、音声認識のための所定の特徴量を抽出する為に設けられる。単語分類部104は、特徴分析部103にて抽出された特徴量に基づいて、音声に含まれる単語を検索するために設けられる。記憶部106は、単語分類部104において単語を検索する場合に必要なデータを記憶しており、単語分類部104より参照される。出力部105は、単語分類部104において検索された結果の単語を出力するために設けられる。



図15の機能ブロックに基づいた単語列決定の流れについて概説する。入力部101より入力された未知の音声は、A/D変換部102を通して離散化され、デジタル信号に変換される。次いで特徴分析部103において、変換されたデジタル信号はフーリエ解析され、24チャネル程度の帯域通過フィルタ(BPF)に通されてノイズ成分が除去された結果、音声のスペクトルが抽出される。なお,近年の標準的音声認識では、音声スペクトルを聴覚特性に合わせて周波数をメル尺度化するとともに,スペクトルの対数値を離散コサイン変換(DCT)したメルケプストラム(Mel Frequency Cepstrum Coefficient; MFCC)を音声のスペクトル特徴として使用することが多い。



次に単語分類部104において、特徴分析部103において得られたスペクトルに基づき、入力された音声に含まれる単語が検索される。単語分類部104では、はじめに、単語を構成する音素系列(これらは単語発音辞書107に記憶されている。)が抽出される。次いで、音素単位に用意されたHMM108が参照されて音響尤度が算出される。入力音声特徴Xの単語k(もしくは音素K)に対する音響尤度Lkは、式(1)で計算された後、HMM108の状態遷移に沿って音響尤度Lkを累積加算したものが用いられる。
【数式1】




ここで、μは平均ベクトル、Σ-1と|Σ|は、各々共分散行列の逆行列と行列式である。なお実際には、単語発音辞書107から音素系列を逐次読み出す方法は効率が悪いため、認識対象の単語全てについて音素系列が予め単一の木構造グラフに縮退表現され、グラフ上で音素の音響尤度を累積しながら探索を進めるなどの手法が用いられる。



また単語分類部104における単語探索の途中には、累積尤度が低いパスをカットする、所謂ビームサーチが一般的に適用され、高速化が図られている。どの単語について探索を行うかを決定する場合には、言語モデル109が参照される。そして、検索の最初では文頭にくる単語全てが対象とされ、この探索が終了すると、言語モデル109の連鎖確率が参照され、次に接続可能な単語が決定される。



なお、単語分類部104における単語探索の途中で使用される累積尤度は、音響尤度と単語連鎖尤度(これらは確率値を対数化した値として使用される)を重み付き加算することにより求められる。重み付き加算時における重み係数は、HMM108の音響尤度と、言語コーパスから求められた単語連鎖尤度(値としては、単語連鎖尤度の方が一桁程度小さい。)という二つの異種な尤度を結合することから必要となり、シミュレーションから両者のバランスを取って決定される。入力音声の終端では,最大の累積尤度を与える単語系列が、認識結果として取り出される。(非特許文献2及び非特許文献3参照)



以上の処理を経て検索された単語は、入力部101より受け付けられた音声に含まれる単語を認識した結果として、出力部105より出力される。このように、従来の標準的な音声認識装置では、HMM108の音響尤度と言語モデル109の単語連鎖尤度とを組み合わせることにより、高い認識精度を得ることが可能となっている。



ここで、音声認識可能な単語数は、単語発音辞書に格納される言語コーパスの規模に依存する。そして、言語コーパスの規模を大きくする程、認識可能な単語数が大きくなるものの、記憶領域や処理時間の制約上、言語コーパスの規模には限界がある。このような中、所定回数繰り返して入力された単語を言語モデルとして登録し使用することによって、音声の認識精度を維持しつつ、言語モデルの容量を抑制して処理時間を短縮することが可能な音声認識装置が提案されている(例えば、特許文献1参照)。

【特許文献1】特開2007-248529号公報

【非特許文献1】柏野牧夫、音声知覚の運動理論をめぐって、日本音響学会誌第62巻5号,pp.391-396(平成18年)

【非特許文献2】安藤彰男、リアルタイム音声認識、電子情報通信学会(2003年(平成15年))pp.4~9「1.3 音声認識技術の概要」

【非特許文献3】鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、音声認識システム,オーム社(2001年(平成13年))pp.93~110「第6章 大語彙連続音声認識アルゴリズム」

産業上の利用分野


本発明は、調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラムに関する。より詳細には、音声発話に伴う調音運動を高い精度で識別する調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラムに関する。

特許請求の範囲 【請求項1】
音声を取得する音声取得手段と、
前記音声取得手段にて取得された音声の調音特徴を抽出する調音特徴抽出手段と、
前記調音特徴抽出手段にて抽出された前記調音特徴の時系列データである調音特徴系列の変位成分より、速度成分と加速度成分とを抽出する成分抽出手段と、
前記調音特徴系列を運動軌跡に変換し、前記運動軌跡に基づいて、前記調音特徴系列にて表わされる調音の運動である調音運動を修正する調音運動修正手段と、
前記調音運動修正手段にて修正された前記調音運動である修正調音運動を記憶手段に記憶する記憶制御手段とを備え、
前記調音運動修正手段は、前記成分抽出手段にて抽出された調音特徴毎の前記加速度成分の値を正、負および零に分類し、該加速度成分の値が正の場合は調音動作を抑制する抑制強調関数を算出し、該加速度成分の値が負の場合は調音動作を強調する抑制強調関数を算出し、該加速度成分の値が零の場合は修正しない抑制強調関数を算出し、前記加速度成分の値に応じて異なる前記抑制強調関数を前記調音特徴系列に乗算することにより、前記調音特徴毎の調音運動を前記修正調音運動に修正することを特徴とする調音特徴抽出装置。

【請求項2】
音声を取得する音声取得ステップと、
前記音声取得ステップにて取得された音声の調音特徴を抽出する調音特徴抽出ステップと、
前記調音特徴抽出ステップにて抽出された前記調音特徴の時系列データである調音特徴系列の変位成分より、速度成分と加速度成分とを抽出する成分抽出ステップと、
前記調音特徴系列を運動軌跡に変換し、前記運動軌跡に基づいて、前記調音特徴系列にて表わされる調音の運動である調音運動を修正する調音運動修正ステップと、
前記調音運動修正ステップにて修正された前記調音運動である修正調音運動を記憶手段に記憶する記憶制御ステップとを備え、
前記調音運動修正ステップは、前記成分抽出ステップにて抽出された調音特徴毎の前記加速度成分の値を正、負および零に分類し、該加速度成分の値が正の場合は調音動作を抑制する抑制強調関数を算出し、該加速度成分の値が負の場合は調音動作を強調する抑制強調関数を算出し、該加速度成分の値が零の場合は修正しない抑制強調関数を算出し、前記加速度成分の値に応じて異なる前記抑制強調関数を前記調音特徴系列に乗算することにより、前記調音特徴毎の調音運動を前記修正調音運動に修正することを特徴とする調音特徴抽出方法。

【請求項3】
請求項1に記載の調音特徴抽出装置の各処理手段としてコンピュータを駆動させるための調音特徴抽出プログラム。
産業区分
  • 電子応用機器
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2008241072thum.jpg
出願権利状態 権利存続中
ご興味のある特許について詳しく内容をお知りになりたい方は、下記までお問い合せください。


PAGE TOP

close
close
close
close
close
close
close