TOP > 国内特許検索 > 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

国内特許コード P140010845
整理番号 2236
掲載日 2014年8月11日
出願番号 特願2008-214097
公開番号 特開2010-049086
登録番号 特許第5147012号
出願日 平成20年8月22日(2008.8.22)
公開日 平成22年3月4日(2010.3.4)
登録日 平成24年12月7日(2012.12.7)
発明者
  • 石塚 健太郎
  • 荒木 章子
  • 河原 達也
出願人
  • 日本電信電話株式会社
  • 国立大学法人京都大学
発明の名称 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
発明の概要 【課題】雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、少ない計算量で精度よく目的信号区間を推定する。
【解決手段】複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出し、切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する。また、基本周波数を推定し、基本周波数又はその倍音成分近傍のグリッドのみについて、基準センサに対応する周波数領域信号を基準として、当該基準センサ以外のセンサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する。そして、グリッド毎に正規化信号値の偏在性を示す偏在値を求め、それらを用いてフレーム毎の偏在性を示す偏在性指標値を算出し、当該偏在性指標値を指標とし、各フレームが目的信号区間に対応するか否かを判定する。
【選択図】図1
従来技術、競合技術の概要



音声信号や音楽信号などの目的信号を処理対象とする符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理技術では、複数種類の信号が含まれる入力音響信号から目的信号が存在する区間を推定する必要がある。この目的信号区間推定の精度はその後の信号処理性能に大きく影響する。





環境雑音下での目的信号区間推定を行う際に複数のマイクロフォンが利用可能な場合には、目的音響信号の区間を推定するために信号の到達時間差の情報を利用できる。従来、目的信号の到来方向を既知として到来方向の信号を強調することで目的信号区間推定を行う手法(非特許文献1)や、零交差数などの音響特徴に対する閾値を目的信号の推定到来方向の信頼度によって決定する方法(非特許文献2)や、空間スペクトルのピークの有無で音声の有無を推定する手法(非特許文献3)や、推定信号到来方向が時間的に一定となる区間を音声の存在する区間とする手法(非特許文献4)などがある。しかしながら、これらの方法で十分な精度を得るためには、目的信号の到来方向が既知であったり、周辺環境が静かであったりする必要がある。





また、複数のマイクロフォンを利用し、各マイクロフォンの信号に対してそれぞれ目的信号区間を推定した後、各マイクロフォンに対応する推定結果を比較して最終的な目的信号区間推定結果を得る手法が存在する(非特許文献5)。しかしながら、この方法では、複数のマイクロフォンを利用することによる空間情報(目的信号の到来方向の情報)を十分利用できていなかった。





その一方で、複数の音響信号が同時にあらゆる方向・あらゆる周波数帯域において到来するような環境(例えば街頭や駅・空港のような日常環境)で信号の到達時間差を用いて十分な目的信号区間推定精度を得るための手法として、一定範囲の時間周波数区間で推定した信号の到達時間差がある一定の値に偏る度合い(偏在性)を利用する手法(非特許文献6)がある。

【非特許文献1】

lvarez, A., Gomez, P., Nieto, V., Martinez, R., and Rodellar, V., "Application of a first-order differential microphone for efficient voice activity detection in a car platform", Proceedings of Interspeech, 2669-2672, 2005.

【非特許文献2】

中貴雅,傳田遊亀,中山雅人,西浦敬信,“Weighted CSP法と音声特徴量に基づくハンズフリー発話区間検出の検討”,日本音響学会2006年度春期全国大会講演論文集,1-P-3, pp. 149-150, Mar. 2006.

【非特許文献3】

本潔,浅野太,吉村隆,本村陽一,麻生英樹,原功,市村直幸,緒方淳,北脇信彦,“音響情報と画像情報の統合による発話区間検出・分離システムの評価,” 日本音響学会秋季研究発表会講演論文集,3-6-10,P121-122,2003.

【非特許文献4】

本雅清,有木康雄,堂下修司,“マルチモーダルインタラクションによるニュース映像中の人物認識,”日本音響学会誌,Vol.62,No.3,P182-192,2006.

【非特許文献5】

木章子,藤本雅清,石塚健太郎,澤田宏,牧野昭二,「音声区間検出と方向情報を用いた会議音声話者識別システムとその評価」,日本音響学会春季研究発表会,pp.1-4,2008.

【非特許文献6】

uan E. Rubio, Kentaro Ishizuka, Hiroshi Sawada, Shoko Araki, Tomohiro Nakatani, and Masakiyo Fujimoto, "Two-Microphone Voice Activity Detection Based on the Homogeneity of the Direction of Arrival Estimates," Proceedings of the 32nd International Conference on Acoustics, Speech, and Signal Processing, Vol. 4, pp. 385-388, 2007.

産業上の利用分野



本発明は、信号処理技術に関し、特に、雑音が含まれる観測信号から目的信号が存在する区間を推定する技術に関する。

特許請求の範囲 【請求項1】
目的信号区間を推定する目的信号区間推定装置であって、
複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出す信号出部と、
上記信号切出部で切り出された各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換部と、
上記信号切出部で切り出された各フレームの信号の基本周波数をそれぞれ推定する基本周波数推定部と、
上記基本周波数又はその各倍音成分に最も近い前記時間周波数ビンを含む所定の時間軸方向及び所定の周波数軸方向の範囲内の1以上の前記時間周波数ビンを含む有限の時間周波数区間であるグリッドを上記フレーム毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの上記周波数領域信号を抽出する時間周波数領域分割部と、
上記センサに含まれる特定の基準センサに対応する上記時間周波数領域分割部で抽出された上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する上記時間周波数領域分割部で抽出された各周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を時間周波数ビン毎に生成する正規化部と、
上記正規化信号値の上記グリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、上記正規化信号値の上記フレーム毎の偏在性を示す偏在性指標値を算出する偏在性指標値算出部と、
上記偏在性指標値を指標とし、各フレームが上記目的信号区間に対応するか否かを判定する判定部と
を有することを特徴とする目的信号区間推定装置。

【請求項2】
請求項の目的信号区間推定装置であって、
上記偏在性指標値算出部は、
上記正規化信号値を量子化し、量子化された正規化信号値の頻度を上記グリッド毎に求め、上記グリッド毎のヒストグラムを生成するヒストグラム生成部と、
上記グリッド毎のヒストグラムを用い、当該ヒストグラムの分布の偏りを示す偏在値を上記グリッド毎に算出する偏在性計算部と、
同一のフレームに対応する各グリッドの上記偏在値を平均し、その平均値を当該フレームの上記偏在性指標値として算出する平均部と、
を有することを特徴とする目的信号区間推定装置。

【請求項3】
請求項の目的信号区間推定装置であって、
上記偏在性計算部は、
上記グリッド毎のヒストグラムを用い、上記量子化された各正規化信号値にそれぞれ対応する値を確率変数とする確率密度関数を上記グリッド毎に求める確率密度関数生成部と、
上記確率密度関数のエントロピーに対して単調増加する関数値、又は、当該エントロピーに対して単調減少する関数値を、上記偏在値として求める偏在値算出部と、
を有することを特徴とする目的信号区間推定装置。

【請求項4】
請求項からの何れかに記載の目的信号区間推定装置であって、
上記判定部は、
各フレームの上記偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各フレームが上記目的信号区間であるか否かを判定する、
ことを特徴とする目的信号区間推定装置。

【請求項5】
請求項からの何れかに記載の目的信号区間推定装置であって、
上記判定部は、
判定対象のフレームの上記偏在性指標値と、非目的信号区間のフレームの上記偏在性指標値と、の比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に上記判定対象のフレームが上記目的信号区間であると判定するか、当該所定の閾値を超える場合に上記判定対象のフレームが上記目的信号区間であると判定する閾値判定部と、を有する、
ことを特徴とする目的信号区間推定装置。

【請求項6】
請求項からの何れかに記載の目的信号区間推定装置であって、
上記判定部は、
事前学習されたフレームの上記偏在性指標値と当該フレームが上記目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、上記偏在性指標値算出部で算出された上記偏在性指標値に対応するフレームが上記目的信号区間であるか否かを判定する、
ことを特徴とする目的信号区間推定装置。

【請求項7】
目的信号区間を推定する目的信号区間推定装置の目的信号区間推定方法であって、
信号出部が、複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出すステップと、
周波数領域変換部が、上記信号切出部で切り出された各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成するステップと、
基本周波数推定部が、上記信号切出部で切り出された各フレームの信号の基本周波数をそれぞれ推定するステップと、
時間周波数領域分割部が、上記基本周波数又はその各倍音成分に最も近い前記時間周波数ビンを含む所定の時間軸方向及び所定の周波数軸方向の範囲内の1以上の前記時間周波数ビンを含む有限の時間周波数区間であるグリッドを上記フレーム毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの上記周波数領域信号を抽出するステップと、
正規化部が、上記センサに含まれる特定の基準センサに対応する上記時間周波数領域分割部で抽出された上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する上記時間周波数領域分割部で抽出された各周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を時間周波数ビン毎に生成するステップと、
偏在性指標値算出部が、上記正規化信号値の上記グリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、上記正規化信号値の上記フレーム毎の偏在性を示す偏在性指標値を算出するステップと、
判定部が、上記偏在性指標値を指標とし、各フレームが上記目的信号区間に対応するか否かを判定するステップと、
を有することを特徴とする目的信号区間推定方法。

【請求項8】
請求項1からの何れかに記載の目的信号区間推定装置としてコンピュータを機能させるための目的信号区間推定プログラム。

【請求項9】
請求項に記載の目的信号区間推定プログラムを格納したコンピュータ読み取り可能な記録媒体。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2008214097thum.jpg
出願権利状態 登録
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close