TOP > 国内特許検索 > 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 > 明細書

明細書 :目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5147012号 (P5147012)
公開番号 特開2010-049086 (P2010-049086A)
登録日 平成24年12月7日(2012.12.7)
発行日 平成25年2月20日(2013.2.20)
公開日 平成22年3月4日(2010.3.4)
発明の名称または考案の名称 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
国際特許分類 G10L  25/78        (2013.01)
G10L  15/04        (2013.01)
FI G10L 11/02
G10L 15/04 300B
請求項の数または発明の数 9
全頁数 24
出願番号 特願2008-214097 (P2008-214097)
出願日 平成20年8月22日(2008.8.22)
審査請求日 平成23年6月27日(2011.6.27)
特許権者または実用新案権者 【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
発明者または考案者 【氏名】石塚 健太郎
【氏名】荒木 章子
【氏名】河原 達也
個別代理人の代理人 【識別番号】100121706、【弁理士】、【氏名又は名称】中尾 直樹
【識別番号】100128705、【弁理士】、【氏名又は名称】中村 幸雄
【識別番号】100147773、【弁理士】、【氏名又は名称】義村 宗洋
【識別番号】100066153、【弁理士】、【氏名又は名称】草野 卓
審査官 【審査官】安田 勇太
参考文献・文献 石塚 健太郎 Kentaro ISHIZUKA,信号到来方向の推定値の偏りを用いた耐雑音音声区間検出法,日本音響学会 2007年 秋季研究発表会講演論文集CD-ROM [CD-ROM],日本,日本音響学会,2007年 9月21日
Juan E. Rubio, Kentaro Ishizuka, Hiroshi Sawada, Shoko Araki,"Two-Microphone Voice Activity Detection Based on the Homogeneity of the Direction of Arrival Estimates,",Proceedings of the 32nd International Conference on Acoustics, Speech, and Signal Processing,,2007年,Vol. 4,,pp. 385-388
調査した分野 G10L 11/02
G10L 15/04
G10L 21/02JSTPlus/JMEDPlus/JST7580(JDreamII)
特許請求の範囲 【請求項1】
目的信号区間を推定する目的信号区間推定装置であって、
複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出す信号出部と、
上記信号切出部で切り出された各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換部と、
上記信号切出部で切り出された各フレームの信号の基本周波数をそれぞれ推定する基本周波数推定部と、
上記基本周波数又はその各倍音成分に最も近い前記時間周波数ビンを含む所定の時間軸方向及び所定の周波数軸方向の範囲内の1以上の前記時間周波数ビンを含む有限の時間周波数区間であるグリッドを上記フレーム毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの上記周波数領域信号を抽出する時間周波数領域分割部と、
上記センサに含まれる特定の基準センサに対応する上記時間周波数領域分割部で抽出された上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する上記時間周波数領域分割部で抽出された各周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を時間周波数ビン毎に生成する正規化部と、
上記正規化信号値の上記グリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、上記正規化信号値の上記フレーム毎の偏在性を示す偏在性指標値を算出する偏在性指標値算出部と、
上記偏在性指標値を指標とし、各フレームが上記目的信号区間に対応するか否かを判定する判定部と
を有することを特徴とする目的信号区間推定装置。
【請求項2】
請求項の目的信号区間推定装置であって、
上記偏在性指標値算出部は、
上記正規化信号値を量子化し、量子化された正規化信号値の頻度を上記グリッド毎に求め、上記グリッド毎のヒストグラムを生成するヒストグラム生成部と、
上記グリッド毎のヒストグラムを用い、当該ヒストグラムの分布の偏りを示す偏在値を上記グリッド毎に算出する偏在性計算部と、
同一のフレームに対応する各グリッドの上記偏在値を平均し、その平均値を当該フレームの上記偏在性指標値として算出する平均部と、
を有することを特徴とする目的信号区間推定装置。
【請求項3】
請求項の目的信号区間推定装置であって、
上記偏在性計算部は、
上記グリッド毎のヒストグラムを用い、上記量子化された各正規化信号値にそれぞれ対応する値を確率変数とする確率密度関数を上記グリッド毎に求める確率密度関数生成部と、
上記確率密度関数のエントロピーに対して単調増加する関数値、又は、当該エントロピーに対して単調減少する関数値を、上記偏在値として求める偏在値算出部と、
を有することを特徴とする目的信号区間推定装置。
【請求項4】
請求項からの何れかに記載の目的信号区間推定装置であって、
上記判定部は、
各フレームの上記偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各フレームが上記目的信号区間であるか否かを判定する、
ことを特徴とする目的信号区間推定装置。
【請求項5】
請求項からの何れかに記載の目的信号区間推定装置であって、
上記判定部は、
判定対象のフレームの上記偏在性指標値と、非目的信号区間のフレームの上記偏在性指標値と、の比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に上記判定対象のフレームが上記目的信号区間であると判定するか、当該所定の閾値を超える場合に上記判定対象のフレームが上記目的信号区間であると判定する閾値判定部と、を有する、
ことを特徴とする目的信号区間推定装置。
【請求項6】
請求項からの何れかに記載の目的信号区間推定装置であって、
上記判定部は、
事前学習されたフレームの上記偏在性指標値と当該フレームが上記目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、上記偏在性指標値算出部で算出された上記偏在性指標値に対応するフレームが上記目的信号区間であるか否かを判定する、
ことを特徴とする目的信号区間推定装置。
【請求項7】
目的信号区間を推定する目的信号区間推定装置の目的信号区間推定方法であって、
信号出部が、複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出すステップと、
周波数領域変換部が、上記信号切出部で切り出された各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成するステップと、
基本周波数推定部が、上記信号切出部で切り出された各フレームの信号の基本周波数をそれぞれ推定するステップと、
時間周波数領域分割部が、上記基本周波数又はその各倍音成分に最も近い前記時間周波数ビンを含む所定の時間軸方向及び所定の周波数軸方向の範囲内の1以上の前記時間周波数ビンを含む有限の時間周波数区間であるグリッドを上記フレーム毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの上記周波数領域信号を抽出するステップと、
正規化部が、上記センサに含まれる特定の基準センサに対応する上記時間周波数領域分割部で抽出された上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する上記時間周波数領域分割部で抽出された各周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を時間周波数ビン毎に生成するステップと、
偏在性指標値算出部が、上記正規化信号値の上記グリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、上記正規化信号値の上記フレーム毎の偏在性を示す偏在性指標値を算出するステップと、
判定部が、上記偏在性指標値を指標とし、各フレームが上記目的信号区間に対応するか否かを判定するステップと、
を有することを特徴とする目的信号区間推定方法。
【請求項8】
請求項1からの何れかに記載の目的信号区間推定装置としてコンピュータを機能させるための目的信号区間推定プログラム。
【請求項9】
請求項に記載の目的信号区間推定プログラムを格納したコンピュータ読み取り可能な記録媒体。
発明の詳細な説明 【技術分野】
【0001】
本発明は、信号処理技術に関し、特に、雑音が含まれる観測信号から目的信号が存在する区間を推定する技術に関する。
【背景技術】
【0002】
音声信号や音楽信号などの目的信号を処理対象とする符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理技術では、複数種類の信号が含まれる入力音響信号から目的信号が存在する区間を推定する必要がある。この目的信号区間推定の精度はその後の信号処理性能に大きく影響する。
【0003】
環境雑音下での目的信号区間推定を行う際に複数のマイクロフォンが利用可能な場合には、目的音響信号の区間を推定するために信号の到達時間差の情報を利用できる。従来、目的信号の到来方向を既知として到来方向の信号を強調することで目的信号区間推定を行う手法(非特許文献1)や、零交差数などの音響特徴に対する閾値を目的信号の推定到来方向の信頼度によって決定する方法(非特許文献2)や、空間スペクトルのピークの有無で音声の有無を推定する手法(非特許文献3)や、推定信号到来方向が時間的に一定となる区間を音声の存在する区間とする手法(非特許文献4)などがある。しかしながら、これらの方法で十分な精度を得るためには、目的信号の到来方向が既知であったり、周辺環境が静かであったりする必要がある。
【0004】
また、複数のマイクロフォンを利用し、各マイクロフォンの信号に対してそれぞれ目的信号区間を推定した後、各マイクロフォンに対応する推定結果を比較して最終的な目的信号区間推定結果を得る手法が存在する(非特許文献5)。しかしながら、この方法では、複数のマイクロフォンを利用することによる空間情報(目的信号の到来方向の情報)を十分利用できていなかった。
【0005】
その一方で、複数の音響信号が同時にあらゆる方向・あらゆる周波数帯域において到来するような環境(例えば街頭や駅・空港のような日常環境)で信号の到達時間差を用いて十分な目的信号区間推定精度を得るための手法として、一定範囲の時間周波数区間で推定した信号の到達時間差がある一定の値に偏る度合い(偏在性)を利用する手法(非特許文献6)がある。

【非特許文献1】Alvarez, A., Gomez, P., Nieto, V., Martinez, R., and Rodellar, V., "Application of a first-order differential microphone for efficient voice activity detection in a car platform", Proceedings of Interspeech, 2669-2672, 2005.
【非特許文献2】田中貴雅,傳田遊亀,中山雅人,西浦敬信,“Weighted CSP法と音声特徴量に基づくハンズフリー発話区間検出の検討”,日本音響学会2006年度春期全国大会講演論文集,1-P-3, pp. 149-150, Mar. 2006.
【非特許文献3】山本潔,浅野太,吉村隆,本村陽一,麻生英樹,原功,市村直幸,緒方淳,北脇信彦,“音響情報と画像情報の統合による発話区間検出・分離システムの評価,” 日本音響学会秋季研究発表会講演論文集,3-6-10,P121-122,2003.
【非特許文献4】藤本雅清,有木康雄,堂下修司,“マルチモーダルインタラクションによるニュース映像中の人物認識,”日本音響学会誌,Vol.62,No.3,P182-192,2006.
【非特許文献5】荒木章子,藤本雅清,石塚健太郎,澤田宏,牧野昭二,「音声区間検出と方向情報を用いた会議音声話者識別システムとその評価」,日本音響学会春季研究発表会,pp.1-4,2008.
【非特許文献6】Juan E. Rubio, Kentaro Ishizuka, Hiroshi Sawada, Shoko Araki, Tomohiro Nakatani, and Masakiyo Fujimoto, "Two-Microphone Voice Activity Detection Based on the Homogeneity of the Direction of Arrival Estimates," Proceedings of the 32nd International Conference on Acoustics, Speech, and Signal Processing, Vol. 4, pp. 385-388, 2007.
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、非特許文献6の方法では、全ての時間周波数区間での偏在性を計算するため多大な計算量を要し、また方向性の雑音がある場合にはそれも目的信号として検出してしまうという問題点がある。
【0007】
本発明はこのような点に鑑みてなされたものであり、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、少ない計算量で精度よく目的信号区間を推定することが可能な技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明では上記課題を解決するために、まず、信号抽出部が、複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出し、周波数領域変換部が、信号切出部で切り出された各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する。また、基本周波数推定部が、信号切出部で切り出された各フレームの信号の基本周波数をそれぞれ推定し、時間周波数領域分割部が、基本周波数又はその各倍音成分をそれぞれ含む有限の時間周波数区間であるグリッドをフレーム毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの周波数領域信号を抽出する。その後、正規化部が、センサに含まれる特定の基準センサに対応する時間周波数領域分割部で抽出された周波数領域信号を基準として、少なくとも当該基準センサ以外のセンサに対応する各周波数領域信号を正規化し、センサで観測された信号の到来方向に対応する時間周波数領域分割部で抽出された正規化信号値を時間周波数ビン毎に生成する。そして、偏在性指標値算出部が、正規化信号値のグリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、正規化信号値のフレーム毎の偏在性を示す偏在性指標値を算出する。
【0009】
ここで、本発明の正規化部が生成する正規化信号値は信号の到来方方向に対応する値となる。通常、環境雑音は多様な方向からセンサに到来するのに対し、目的信号は或る方向のみからセンサに到来するという性質(性質1)を持つ。そのため、目的信号が存在しない時間周波数ビンの正規化信号値は広く分布する(偏在性が低い)のに対し、目的信号が存在する時間周波数ビンの正規化信号値は目的信号の到来方方向に対応する値の付近に偏って分布する(偏在性が高い)。また、同一の目的信号の基本周波数又はその倍音成分(基本周波数の整数倍の周波数成分)はそれぞれ時間周波数領域で狭く分布するのに対し、雑音のパワーは時間周波数領域に広く分布する(性質2)。本発明では、これらの性質を利用し、基本周波数又はその倍音成分をそれぞれ含む有限の時間周波数区間であるグリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、正規化信号値のフレーム毎の偏在性を示す偏在性指標値を算出する。これにより、目的信号区間を精度よく推定することができる。また、本発明では、各グリッドに属する各時間周波数ビンのみについて正規化信号値を求め、各グリッドのみについて偏在値を求めるため、全ての時間周波数区間で正規化信号値や偏在値を求める場合に比べ演算量を削減できる。なお、このように正規化信号値の偏在性を指標とする場合、目的信号の到来方向を正確に知る必要はない。よって、本発明では、目的信号の正確な到来方向を推定できない場合であっても、適切に目的信号区間を推定することができる。
【0010】
また、本発明において好ましくは、偏在性指標値算出部は、正規化信号値を量子化し、量子化された正規化信号値の頻度をグリッド毎に求め、グリッド毎のヒストグラムを生成するヒストグラム生成部と、グリッド毎のヒストグラムを用い、当該ヒストグラムの分布の偏りを示す偏在値をグリッド毎に算出する偏在性計算部と、同一のフレームに対応する各グリッドの偏在値を平均し、その平均値を当該フレームの偏在性指標値として算出する平均部と、を有する。
【0011】
このように、同一のフレームに対応する各グリッドの偏在値を平均し、その平均値を当該フレームの偏在性指標値として算出することにより、パワーや到来方向が時間周波数領域に広く分布する雑音成分の影響を低減させ、目的信号区間の推定精度を向上させることができる。
【0012】
また、本発明において好ましくは、ヒストグラム生成部は、重み係数を用い、量子化された正規化信号値の頻度を重み付けし、当該重み付けされた頻度を用いてグリッド毎のヒストグラムを生成する。この重み係数を適宜設定することにより、各環境に最適な目的信号区間推定方法が構築できる。
【0013】
また、本発明において好ましくは、偏在性計算部は、グリッド毎のヒストグラムを用い、量子化された各正規化信号値にそれぞれ対応する値を確率変数とする確率密度関数をグリッド毎に求める確率密度関数生成部と、確率密度関数のエントロピーに対して単調増加する関数値、又は、当該エントロピーに対して単調減少する関数値を、偏在値として求める偏在値算出部とを有する。このように偏在値を求めることにより、目的信号が存在する区間で小さな値をとり、目的信号が存在しない区間で大きな値をとる偏在性指標値、又は、目的信号が存在する区間で大きな値をとり、目的信号が存在しない区間で小さな値をとる偏在性指標値を生成することが可能となる。
【0014】
また、本発明において好ましくは、正規化部は、基準センサに対応する周波数領域信号の位相及び/又は振幅を基準とし、少なくとも当該基準センサ以外のセンサに対応する各周波数領域信号の位相及び/又は振幅を正規化し、当該正規化値又はその写像である正規化信号値を生成する。また、この場合に好ましくは、正規化信号値は、周波数成分が正規化され、周波数依存性が排除された値である。正規化信号値の周波数依存性が排除されていない場合、目的信号の時間周波数ビンにおける正規化信号値は、信号の到来方向と周波数とに依存した値となる。一方、正規化信号値の周波数依存性が排除されていた場合、目的信号の時間周波数ビンにおける正規化信号値は、信号の到来方向のみに依存した値となる。すなわち、同じ目的信号に対応する正規化信号値であったとしても、周波数依存性が排除された正規化信号値のほうが、周波数依存性が排除されていない正規化信号値よりも偏在性が高い。その結果、目的信号に起因する正規化信号値の偏在性がより明確に表れた偏在性指標値を得ることができ、偏在性指標値を指標として行われる目的信号区間の推定精度が向上する。
【0015】
また、本発明において判定部は、例えば、各フレームの偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各フレームが目的信号区間であるか否かを判定する。また、判定部が、判定対象のフレームの偏在性指標値と、を非目的信号区間のフレームの偏在性指標値との比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に判定対象のフレームが目的信号区間であると判定するか、当該所定の閾値を超える場合に判定対象のフレームが目的信号区間であると判定してもよい。また、例えば、判定部が、事前学習されたフレームの偏在性指標値と当該フレームが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するフレームが目的信号区間であるか否かを判定してもよい。
【発明の効果】
【0016】
以上のように本発明では、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、少ない計算量で精度よく目的信号区間を推定することが可能となる。
【発明を実施するための最良の形態】
【0017】
以下、本発明を実施するための最良の形態を図面を参照して説明する。
図1は、本形態の目的信号区間推定装置10の全体構成を例示したブロック図である。また、図2は、図1の偏在性指標値算出部16の詳細構成を例示したブロック図である。また、図3は、図1の判定部17の詳細構成を例示したブロック図である。
【0018】
<構成>
図1に例示するように、本形態の目的信号区間推定装置10は、信号切出部11と周波数領域変換部12と基本周波数推定部13と時間周波数領域分割部14と正規化部15と偏在性指標値算出部16と判定部17と制御部18と記憶部19とを具備し、S(S≧2)個のセンサ20-1~Sで観測され、サンプリング部30でサンプリングされた信号が入力され、目的信号区間の分析結果を出力する装置である。また、図2(a)に例示するように、この例の偏在性指標値算出部16は、ヒストグラム生成部16aと確率密度関数計算部16bとエントロピー計算部16cと平均部16dを具備する。また、図2(b)に例示するように、この例の判定部17は、相対値計算部17aと尤度比算出部17bと閾値判定部17cとを具備する。
【0019】
なお、目的信号区間推定装置10は、例えば、CPU(central processing unit),RAM(random access memory),ROM(read only memory)等から構成される公知のコンピュータに所定のプログラムを実行させることによって構成されるものである。
【0020】
<処理>
次に、本形態の目的信号区間推定方法について説明する。
本形態の目的信号区間推定方法では、複数のセンサ20-1~S(S≧2)で観測された各信号を時間周波数分析し、特定の基準センサを基準とした正規化信号値を求め、所定の時間周波数区間であるグリッド内における正規化信号値の偏在性に基づいて、目的信号の有無を検出して出力する。なお、本形態では、複数のセンサ20-1~Sとしてマイクロフォンを利用し、それらで観測された各音響信号を用い、音声信号や音楽信号などの目的信号の有無を検出して出力する場合を例示する。また、以下では明記しないが、目的信号区間推定装置10は、制御部18の制御に基づいて各演算処理を実行し、各演算処理の過程で得られたデータは記憶部19に逐次格納され、それ以降の各演算処理に利用される。
【0021】
図4は、本形態の目的信号区間推定方法を説明するためのフローチャートである。また、図5は、ステップS7の詳細を説明するためのフローチャートであり、図6は、ステップS8の詳細を説明するためのフローチャートである。以下、これらのフローチャートに沿って本形態の目的信号区間推定方法を説明していく。
【0022】
まず、S(S≧2)個のセンサ20-1~Sでそれぞれ観測された各信号がサンプリング部30に入力される。これらの信号には音声信号や音楽信号等目的信号の他に環境雑音信号も含まれる。サンプリング部30は、各信号を所定(例えば16,000Hz)のサンプリング周波数fでサンプリングし、これにより各センサ20-1~Sに対応する時間領域の信号x(1,t),...,x(S,t)を抽出する(ステップS1)。なお、tはt番目のサンプリング点を示す。
【0023】
サンプリング部30で抽出された各時間領域の信号x(1,t),...,x(S,t)は、目的信号区間推定装置10の信号切出部11に入力される。信号切出部11は、入力された各信号x(1,t),...x(S,t)を所定の時間区間であるフレーム毎に切り出し、各センサ20-1~Sについての各フレームi(iはフレームインデックスを示す)の信号x’(1,i,n),...,x’(S,i,n)を抽出する(ステップS2)。なお、nはフレームiにおけるn番目のサンプル点を表す。具体的には、信号切出部11は、例えば、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ所定の窓関数を例えば時間軸方向に16msずつ移動(シフト)させながら乗じ、これにより、例えば32msの時間長の信号x’(1,i,n),...,x’(S,i,n)を切り出す。より具体的には、例えば、サンプリング周波数が16,000Hzの場合、信号切出部11は、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ例えば式(1)のハニング窓を256サンプル点(16,000Hz×16ms)ずつ移動(シフト)させながら乗じ、センサ20-1~S毎に、512サンプル点(16,000Hz×32ms)の離散信号を1フレーム分の信号として切り出す。ここで、Lは切り出される1フレーム分の信号のサンプル点数(フレーム長:上述の例ではL=512)を表す。
【0024】
【数1】
JP0005147012B2_000002t.gif
信号切出部11は、以上のように切り出した各センサ20-1~Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を出力し、これらは周波数領域変換部12に入力される。
【0025】
周波数領域変換部12では、各センサ20-1~Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を周波数領域に変換し、時間周波数ビン(i,k)毎の周波数領域信号(周波数領域スペクトル)X(1,i,k),...,X(S,i,k)を各センサ20-1~Sについて生成する(ステップS3)。離散フーリエ変換によってこの変換を行う場合、周波数領域変換部12は、以下の式(2)のように周波数領域信号X(1,i,k),...,X(S,i,k)を算出する。
【0026】
【数2】
JP0005147012B2_000003t.gif
ここで、jは虚数単位を示し、s(s∈{1,...,S})は各センサ20-1~Sの番号を示す。また、k(k=0,...,M-1)は周波数インデックスであり、サンプリング周波数fをM等分した離散点を表す。Mはフレーム長L以上の自然数であり、例えば、M=512とする。周波数領域変換部12は、以上のような変換によって得られた周波数領域信号(周波数スペクトル)X(1,i,k),...,X(S,i,k)を出力する。
【0027】
また、信号切出部11で切り出された各センサ20-1~Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)は、基本周波数推定部13にも入力される。基本周波数推定部13は、各フレームiの時間領域の信号x’(1,i,n),...,x’(S,i,n)を用い、各センサs及びフレームi毎の基本周波数F0(1,i),...,F0(S,i)をそれぞれ推定する(ステップS4)。この推定には、例えば以下の自己相関法(例えば、「Quatieri, T. F., "Discre-time Speech Signal Processing principles and practice," Prentice-Hall, 2002; pp. 504-505」参照)を用いる。この場合、基本周波数推定部13は、まず、以下のように各センサs及びフレームi毎の自己相関関数の係数c(s,i,n)をn=1,...,Lについて求める。
【0028】
【数3】
JP0005147012B2_000004t.gif
なお、周波数領域変換部12が離散フーリエ変換によって周波数領域信号X(1,i,k),...,X(S,i,k)を算出する場合、基本周波数推定部13は、周波数領域変換部12の出力である各周波数領域信号X(1,i,k),...,X(S,i,k)の絶対値を2乗して逆フーリエ変換し、各自己相関関数の係数c(s,i,n)を求めることもできる。
【0029】
次に、基本周波数推定部13は、各センサs及びフレームi毎に、nの一定の探索範囲、例えば、32≦n≦320(サンプリング周波数fs=16,000Hzの場合の50Hzから500Hzの周波数範囲に該当)の範囲内において、自己相関関数の係数c(s,i,n)が最大となるnを検出する。その結果得られたnは、入力信号x’(1,i,n),...,x’(S,i,n)の当該探索範囲において最も支配的な周期成分の周期長に対応し、入力信号x’(1,i,n),...,x’(S,i,n)がそれぞれ単一の完全な周期信号(例えば、正弦波)の場合にはその周期長に対応する。基本周波数推定部13は、サンプリング周波数fsを各センサs及びフレームi毎に得られたnで割ることで、各センサs及びフレームi毎の基本周波数F0(1,i),...,F0(S,i)を生成し、これらを出力する。なお、基本周波数の推定方法として、並列処理法、SIFTアルゴリズム、ケプストラム分析等を用いてもよい(例えば、「古井貞煕,“デジタル音声処理”,東海大学出版,ISBN4-486-00896-0」参照)。
【0030】
次に、時間周波数領域分割部14に、各基本周波数F0(1,i),...,F0(S,i)と、周波数領域信号X(1,i,k),...,X(S,i,k)とが入力される。時間周波数領域分割部14は、入力された各基本周波数F0(1,i),...,F0(S,i)又はその各倍音成分(基本周波数の整数倍の周波数成分)をそれぞれ含む有限の時間周波数区間であるグリッドを各センサs及びフレームi毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの周波数領域信号XGRID1(1,i,k),...,XGRIDG(S,i,k)を抽出して出力する(ステップS5)。なお、センサsのフレームiの各グリッドは、基本周波数F0(s,i)又はその各倍音成分の近傍にある一定の時間周波数区間であり、例えば、基本周波数F0(s,i)に最も近い時間周波数ビンから所定の時間周波数範囲にある時間周波数区間、及び、基本周波数F0(s,i)の各倍音成分にそれぞれ最も近い時間周波数ビンから所定の時間周波数範囲にある時間周波数区間である。例えば、基本周波数F0(s,i)に最も近い周波数ビン及び基本周波数F0(s,i)の各倍音成分にそれぞれ最も近い周波数ビンをk'と表現すると(f=fs・k'/Mが基本周波数F0(s,i)又はその各倍音成分に最も近くなる)、センサsのフレームiの各グリッドに属する各時間周波数ビンの周波数領域信号XGRIDg(s,i,k)(g=1,...,G)は以下のように表現できる。
XGRIDg(s,i,k)={X(s,i+P,k'+Q)} ...(4)
【0031】
【数4】
JP0005147012B2_000005t.gif
ここで、Aは時間方向の幅を示し、Bは周波数方向の幅を示し、{・}は・を要素とする集合を意味する。A、Bには例えばA=9,B=5(時間幅160ms、周波数幅156.25Hz)を用いる。また、Gは基本周波数及びその各倍音成分の合算数を示す。Gは例えば定数である。
【0032】
[好ましいグリッド幅の設定方法]
なお、前述したように、本発明では、正規化信号値のグリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、正規化信号値のフレーム毎の偏在性を示す偏在性指標値を算出し、そのフレームが目的信号区間であるか否かの判定を行う。ここで、グリッドの時間周波数区間が広すぎるとグリッド内での正規化信号値の偏在性が平坦化され、偏在性から目的信号区間であるか非目的信号区間であるかを判定することが困難となる。逆にグリッドの時間周波数区間が狭すぎると、サンプル数が少ないため全てのグリッドでの正規化信号値の偏在性が高くなり、偏在性から目的信号区間であるか非目的信号区間であるかを判定することが困難となる。よって、グリッド幅はこのような問題が生じない範囲で設定する必要がある。以下に好ましいグリッド幅の設定方法について説明する。
【0033】
《式(5)のAについて》
信号が音声信号の場合、およそ音声信号の定常性が仮定できる50~300 msの時間長に対応するAを決定すればよい。すなわち、フレームシフトの幅をSF msとすると、50/SF~300/SFの間の整数値をAとすればよい。また、話者の発話速度SR syllables/sec(1秒あたりに発話される音節数)が事前に分かるならば、(1000/SR)/SF近傍の(例えば最も近い)整数値をAとしてもよい(例えば、SR=7 syllables/sec, SF=16msならば、(1000/SR)/SF=(1000/7)/16=8.93なので、A=9とする、など)。また、対象信号が音楽信号ならば、音楽のリズム(音声のSRに対応)から同様にAを求める値を用いることが望ましい。
【0034】
《式(5)のBについて》
基本的に、窓関数w(n)のメインローブ幅から得られる幅を用いるとよい。例えば、窓関数w(n)の離散フーリエ変換値をW(k)とし、1<k(W(k)/W(0))> -60dBを満たす最大の周波数ビンkをcfとし、cf・2+1近傍の(例えば最も近い)整数値をBとする。この値はサンプリング周波数fs,分析フレーム長L,離散フーリエ変換の周波数ビンの総数Mに応じて変化する(例えば、サンプリング周波数 8kHz,窓関数の幅が256サンプル点,M=256ならば、cf=2となり、B=5となる)。
【0035】
また、基本周波数推定部13で推定された基本周波数がF0(s,i)Hzであった場合には、一つのグリッドに2つ以上の音声信号の調波成分が入らないように、例えばB=2・F0(s,i)/(fs/M)+1により定め、これが上記のメインローブ幅から求まる幅より大きくなる場合は、上記のメインローブ幅から求める値を採用することとしてもよい。例えば、サンプリング周波数 8kHz,窓関数の幅が256サンプル点,M=256のとき、F0(s,i)=50 HzならB=2・50・(8000/256)+1=4.2となるので、例えばB=4とする。一方、F0(s,i)=200 HzならB=2・200・(8000/256)+1=13.8となるが、上記のメインローブ幅から求める値B=5よりも大きくなるため、B=5を採用する。これは、メインローブ幅の中でのみ音声信号の到来方向が偏在することによる。これらは目的信号が音楽信号である場合も同様である(「好ましいグリッド幅の設定方法」の説明終わり)。
【0036】
次に、時間周波数領域分割部14から出力された各グリッドに属する各時間周波数ビンの周波数領域信号XGRID1(1,i,k),...,XGRIDG(S,i,k)が正規化部15に入力される。正規化部15は、特定の基準センサsB∈{1,...,S}に対応する時間周波数領域分割部14で抽出された周波数領域信号XGRID1(sB,i,k),...,XGRIDG(sB,i,k)を基準として、少なくとも当該基準センサsB以外のセンサs(≠sB)に対応する時間周波数領域分割部14で抽出された各周波数領域信号XGRID1(s,i,k),...,XGRIDG(s,i,k)を正規化し、センサで観測された信号の到来方向に対応する正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)を時間周波数ビン(i,k)毎に生成する(ステップS5)。なお、このような各正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)は、目的信号が存在する時間周波数ビン(i,k)において、目的信号の到来方向に対応する値に偏ったものとなる。以下に正規化部15が生成する正規化信号値ZGRIDg(i,k)(g=1,...,G)の例を示す。
【0037】
[正規化信号値ZGRIDg(i,k)の例]
本形態では正規化信号値ZGRIDg(i,k)の一例として、S=2とし、基準センサ20-1に対応する周波数領域信号XGRIDg(1,i,k)と、他方のセンサ20-2に対応する周波数領域信号XGRIDg(2,i,k)とから信号到来方向を推定し、その信号到来方向推定値を正規化信号値ZGRIDg(i,k)とする(正規化信号値ZGRIDg(i,k)の例1)。この例では、正規化部15は、以下の式(7)(8)によって算出された信号到来方向θg(i,k)を正規化信号値ZGRIDg(i,k)とする。なお、νは音速(約340m/秒)を示し、dはセンサ間距離(m)を示し、fは周波数ビンkに対応する離散周波数f=fs・k/Mを示し、arg(・)は・の位相(偏角)を示す。また、τg(i,k)は信号源から各センサ20-1,2までの信号到達時間差を示し、θg(i,k)は信号到来方向推定値を示す。また、式(8)によって算出される信号到来方向θg(i,k)は、センサ20-1,2を結ぶ線分の中点を通り、その線分と直交する方向を0radianとした角度(radian)である。なお、このように算出された正規化信号値ZGRIDg(i,k)は、周波数成分fが正規化され、周波数依存性が排除された値となる。
【0038】
【数5】
JP0005147012B2_000006t.gif
また、前述の式(7)で算出された信号到達時間差τg(i,k)を正規化信号値ZGRIDg(i,k)としてもよい(正規化信号値ZGRIDg(i,k)の例2)。なお、このように算出された正規化信号値ZGRIDg(i,k)も周波数成分fが正規化され、周波数依存性が排除された値となる。
【0039】
また、周波数領域信号XGRIDg(2,i,k)の位相に対する周波数領域信号XGRIDg(1,i,k)の位相差arg(XGRIDg(2,i,k)/XGRIDg(1,i,k))を正規化信号値ZGRIDg(i,k)としてもよいし(正規化信号値ZGRIDg(i,k)の例3)、周波数領域信号XGRIDg(2,i,k)の位相と周波数領域信号XGRIDg(1,i,k)の位相との差arg(XGRIDg(2,i,k))- arg (XGRIDg(1,i,k))を正規化信号値ZGRIDg(i,k)としてもよい(正規化信号値ZGRIDg(i,k)の例4)。さらに、周波数領域信号XGRIDg(2,i,k)振幅に対する周波数領域信号XGRIDg(1,i,k)の振幅の比|XGRIDg(2,i,k)|/|XGRIDg(1,i,k)|を正規化信号値ZGRIDg(i,k)としてもよいし(正規化信号値ZGRIDg(i,k)の例5)、周波数領域信号XGRIDg(1,i,k)のパワーに対する周波数領域信号XGRIDg(2,i,k)のパワーの比|XGRIDg(2,i,k)|/|XGRIDg(1,i,k)|を正規化信号値ZGRIDg(i,k)としてもよい(正規化ZGRIDg(i,k)の例6)。何れの場合も、目的信号が存在する時間周波数ビン(i,k)においてのみ、目的信号の到来方向に対応する値に偏った値を取るため、正規化信号値ZGRIDg(i,k)の偏在性を指標として目的信号が存在するか否かを判定できる。
【0040】
また、上記ではセンサの数が2つの場合を例示したが、センサの数が3以上の場合は、例えば以下のように、目的信号の到来方位角推定値θg(i,k)と仰角推定値φg (i,k)とを求め、それら2つの値を時間周波数ビン(i,k)に対する正規化信号値ZGRIDg(i,k)としてもよい(正規化信号値ZGRIDg(i,k)の例7)。
【0041】
まず、各センサ20-s(s=1,...,S)の空間中の座標ベクトルをd=[x座標,y座標,z座標]とする。また、J(J∈(1,...,S))番目のセンサ20-Jを基準センサとし、基準センサ20-Jと各センサ20-sとの距離ベクトルDを以下の式(9)のように設定する。なお、[・]Tはベクトル・の転置を示す。
【0042】
D=[d1-dJ, d2-dJ,...,dS-dJ]T ...(9)
また、基準センサ20-Jと各センサ20-sとの信号到達時間差τg(s,i,k)を以下の式(10)で求め、それらを要素とした信号到達時間差ベクトルτg'(i,k)を以下の式(11)のように求める。
【0043】
【数6】
JP0005147012B2_000007t.gif
τg'(i,k)=[τg(1,i,k),τg(2,i,k),...,τg(S,i,k)]T ...(11)
上述の式(9)~(11)には以下の式(12)の関係が成り立ち、以下の式(12)から目的信号の到来方位角推定値θg(i,k)と仰角推定値φg(i,k)とを求める。なお、式(12)におけるD-1はムーア・ペンローズ型一般化逆行列などの一般化逆行列である。また、目的信号の到来方位角とはx-y平面上の目的信号の到来方向を意味し、目的信号の仰角とはx-z平面上の目的信号の到来方向を意味する。また、y軸線方向が0radianである。
【0044】
ν・D-1・τg'(i,k)=[cosθg(i,k) cosφg(i,k),sinθg(i,k)sinφg(i,k),sinφg(i,k)] T ...(12)
また、上述の正規化信号値Z (i,k)の例1~7で例示した正規化信号値ZGRIDg(i,k)を組み合わせ、時間周波数ビン(i,k)毎に2以上の正規化信号値ZGRIDg(i,k)算出する構成であってもよい(正規化信号値ZGRIDg(i,k)の例8)。例えば、位相差arg(XGRIDg(2,i,k)/XGRIDg(1,i,k))と振幅の比|XGRIDg(2,i,k)|/|XGRIDg(1,i,k)|との組を時間周波数ビン(i,k)の正規化信号値ZGRIDg(i,k)としてもよい。また、例えばS=3とし、位相差arg(XGRIDg(2,i,k)/XGRIDg(1,i,k))と振幅の比|XGRIDg(3,i,k)|/|XGRIDg(1,i,k)|との組を時間周波数ビン(i,k)の正規化信号値ZGRIDg(i,k)としてもよい。また、上述のように生成した値の写像を正規化信号値ZGRIDg(i,k)としてもよい([正規化信号値ZGRIDg(i,k)の例]の説明終わり)。
【0045】
以上のようにステップS6では、正規化部15が上述のような正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)を生成し、出力する。
【0046】
正規化部15から出力された各正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)は、偏在性指標値算出部16に入力される。偏在性指標値算出部16は、各正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)のグリッド毎の偏在性を示す偏在値H1(i,k),...,HG(i,k)を求め、当該グリッド毎の偏在値H1(i,k),...,HG(i,k)を用い、正規化信号値のフレームi毎の偏在性を示す偏在性指標値H(i)を算出する(ステップS7)。以下にステップS7の詳細を例示する。
【0047】
[ステップS7の例]
この例の場合、まず、偏在性指標値算出部16のヒストグラム生成部16a(図2)が、入力された各正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)をそれぞれC個の値Z(c)(c=1,..,C)に量子化し、量子化された正規化信号値Z(c)の頻度bin1(i,k,c),...,binG(i,k,c)(c=1,...,C)をグリッド毎に求め、グリッド毎のヒストグラムを生成する(ステップS71)。例えば、正規化信号値ZGRIDg(i,k)が信号到来方向θg(i,k)であり、C=32であった場合、各正規化信号値ZGRIDg(i,k)は以下のようなC個の正規化信号値Z(c)に量子化される。
【0048】
Z(1) (-π/2≦ZGRIDg(i,k)<-7π/16)
Z(2) (-7π/16≦ZGRIDg(i,k)<-3π/16) Z(C) (7π/16<ZGRID(i,k)<π/2)g(i,k)を正規化信号値ZGRIDg(i,k)とした場合には、ヒストグラム生成部16aは、例えば|τg(i,k)|≦(d/ν)×α(αは正の定数)の単位で正規化信号値ZGRIDg(i,k)をC個に量子化する。
【0049】
そして、ヒストグラム生成部16aは、時間周波数ビン(i,k)毎に正規化信号値ZGRIDg(i,k)がいずれの正規化信号値Z(c)に対応するかを判断し、その頻度をグリッド毎にカウントし、グリッド毎のヒストグラムを生成する。この際、ヒストグラム生成部16aが、或る重み係数を用い、量子化された正規化信号値Z(c)の頻度を重み付けし、当該重み付けされた頻度を用いてグリッド毎のヒストグラムを生成してもよい。例えば、ヒストグラム生成部16aが、頻度のカウントの際、対応する時間周波数ビン(i,k)の重み係数W(i,k)で頻度を重み付けしてもよい。より具体的には、例えば、時間周波数ビン(1,2)の正規化信号値ZGRIDg(i,k)を量子化した値がZ(5)であった場合、Z(5)に対する頻度としてW(1,2)をカウントする。すなわち、正規化信号値ZGRIDg(i,k)に対する、量子化された正規化信号値Z(c)の頻度bing(i,k,c)(c=1,...,C)は、例えば、以下の式(13)のようにカウントされてもよい。
【0050】
bing(i,k,c)=ΣW(i+P,k+Q) if ZGRIDg(i+P,k+Q)∈Z(c) ...(13)
【0051】
《重み係数W(i,k)の例》
以下に重み係数W(i,k)の例を示す。重み係数W(i,k)の例として、例えば、以下の式(14)のように、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)のパワーを合算し、それを全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)のパワー総和で正規化した値を例示できる(重み係数W(i,k)の例1)。
【0052】
【数7】
JP0005147012B2_000008t.gif
また、重み係数W(i,k)として、例えば、以下の式(15)のように、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値を合算し、それを全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値の総和で正規化した値を用いてもよい(重み係数W(i,k)の例2)。
【0053】
【数8】
JP0005147012B2_000009t.gif
また、式(14)(15)のような正規化を行わないで重み係数W(i,k)を求めてもよい(重み係数W(i,k)の例3)。この場合であっても、雑音環境によっては十分に目的信号区間推定が可能な場合もある。例えば、以下の式(11)(12)のように重み係数W(i,k)を求めてもよい。
【0054】
【数9】
JP0005147012B2_000010t.gif
また、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値やパワーを合算するのではなく、一部のセンサについての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値やパワーを合算したり、以下の式(18)(19)のように1個のセンサ20-Jの周波数領域信号X(J,i,k)の振幅の絶対値やパワーを重み係数W(i,k)としたりしてもよい(重み係数W(i,k)の例4)。なおこの場合には、できるだけ信号源に近い(出来れば最も近い)センサ20-Jの周波数領域信号X(J,i,k)を用いることが望ましい。信号源に近いセンサ20-Jほど、遅延や畳み込みの影響が少なく、適切な重み係数W(i,k)を算出できるからである。
【0055】
W(i,k)=|X(J,i,k)| ...(18)
W(i,k)=|X(J,i,k)|2 ...(19)
なお、重み係数W(i,k)を1などの固定値としてもよい。また、雑音環境や目的信号の状況に応じ、重み係数W(i,k)を1などの固定値とする場合と、重み係数W(i,k)の例1~4のように重み係数W(i,k)を逐次算出する場合と、を切り替え制御可能な構成としてもよい(《重み係数W(i,k)の例》の説明終わり)。
【0056】
図11は、以上のように生成したヒストグラムを、横軸を量子化された正規化信号値(信号到来方向)Z(c)とし、縦軸を正規化された重み付け後の頻度bing(i,k,c)として表示した例である。ここで、図11(a)は、目的信号が存在する時間周波数ビンを含むグリッドについて作成されたヒストグラムであり、図11(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッドについて作成されたヒストグラムの例示である。なお、これらの例において重み係数W(i,k)は1である。
【0057】
図11(a)(b)の対比から分かるように、目的信号が存在する時間周波数ビンを含むグリッドのヒストグラム(図11(a))は、正規化信号値Z(c)が特定の値に偏った分布をみせる(偏在性が高い)のに対し、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッドのヒストグラム(図11(b))は、幅広く分布する形状となることが分かる。
【0058】
ヒストグラム生成部16aは、以上のように生成したグリッド毎のヒストグラムを特定するためのbing(i,k,c)(c=1,...,C)を出力し、bing(i,k,c)は確率密度関数計算部16bに入力される。
【0059】
確率密度関数計算部16bは、bing(i,k,c)を用い、以下の式(20)のようにヒストグラムを確率密度関数Pg(i,k,c)とみなし、量子化された各正規化信号値にそれぞれ対応する値c=1,...,Cを確率変数とする確率密度関数Pg(i,k,c)を算出し、出力する(ステップS72)。
【0060】
【数10】
JP0005147012B2_000011t.gif
出力されたグリッド毎の各確率密度関数Pg(i,k,c)は、エントロピー計算部16cに入力され、エントロピー計算部16cは、以下の式(21)のようにグリッド毎のエントロピーHg(i,H)を求め、各グリッドの偏在値として出力する。
【0061】
【数11】
JP0005147012B2_000012t.gif
このように算出したエントロピーHg(i,k)は、正規化信号値Z(c)のヒストグラムが特定の値に偏った分布をみせる場合には低い値となり、幅広く分布する場合には高い値となり、ヒストグラムの分布の偏りを示す。すなわち、図11(a)のように、目的信号が存在する時間周波数ビンを含むグリッドのヒストグラムは、正規化信号値Z(c)が特定の値に偏るため、エントロピーHg(i,k)は小さくなる。なお、このエントロピーの大小を反転させるため、エントロピー計算部16cがさらに以下の計算を行い、その演算結果を各グリッドの偏在値として出力としてもよい。
【0062】
【数12】
JP0005147012B2_000013t.gif
この演算結果は、エントロピーHg(i,k)の大小を反転させたものであり、目的信号が存在するグリッドで大きい値をとり、それ以外のグリッドで小さい値をとり、ヒストグラムの分布の偏りを示す。以下では、エントロピー計算部16cから出力される各グリッドの偏在値を式(21)の演算結果も含めてHg(i,k)と表現する。
【0063】
エントロピー計算部16cから出力された各グリッドの偏在値Hg(i,k)は、平均部16dに入力される。平均部16dは、同一のフレームiに対応する各グリッドの偏在値Hg(i,k)を平均し、その平均値を当該フレームiの偏在性指標値H(i)として算出する(ステップS74)。すなわち、平均部16dは、同一のフレームiに対応する各グリッドの偏在値Hg(i,k)をg=1,...,Gについて合算し、Gで割ることにより当該フレームiの偏在性指標値H(i)を算出する。
【0064】
なお、ここではヒストグラムの偏りを示す指標としてエントロピーを用い、それを偏在性指標値H(i)としているが、その他の正規化信号値ZGRIDg(i,k)の偏在性を示す指標を在性指標値H(i)としてもよい。以下に他の偏在性指標値H(i)を例示する。
【0065】
《偏在性指標値H(i)の変形例》
例えば、図2の偏在性指標値算出部16の代わりに、図7の偏在性指標値算出部16を用いてもよい(偏在性指標値H(i)の変形例1)。この例では分散を偏在性指標値H(i)として用いる。この場合、まず、偏在性指標値算出部16の平均値算出部16eに、正規化信号値ZGRIDg(i,k)が入力される。平均値算出部16eは、以下の式(22)のように、時間周波数ビン(i,k)毎に各正規化信号値ZGRIDg(i,k)を重み係数W(i,k)で重み付けし、グリッド毎に重み付け後の平均値Eg(i,k)を求めて出力する。なお、μはグリッド毎の正規化信号値ZGRIDg(i,k)の要素数である。
【0066】
【数13】
JP0005147012B2_000014t.gif
偏在性指標値算出部16の分散計算部16fには、平均値Eg(i,k)と、各正規化信号値ZGRIDg(i,k)とが入力され、以下の式(23)のように分散Hg(i,k)を計算し、それを各グリッドの偏在値Hg(i,k)として出力する。
【0067】
【数14】
JP0005147012B2_000015t.gif
分散計算部16fから出力された各グリッドの偏在値Hg(i,k)は、平均部16dに入力される。平均部16dは、同一のフレームiに対応する各グリッドの偏在値Hg(i,k)を平均し、その平均値を当該フレームiの偏在性指標値H(i)として算出する。
【0068】
また、図2の偏在性指標値算出部16の代わりに、図8の偏在性指標値算出部16を用いてもよい(偏在性指標値H(i)の変形例2)。この例では尖度を偏在性指標値H(i)として用いる。
【0069】
この場合、まず、偏在性指標値算出部16の平均値算出部16eに、正規化信号値ZGRIDg(i,k)が入力される。平均値算出部16eは、式(22)のように、時間周波数ビン(i,k)毎に各正規化信号値ZGRIDg(i,k)を重み係数W(i,k)で重み付けし、重み付け後の平均値Eg(i,k)を求めて出力する。また、偏在性指標値算出部16の分散計算部16gには、平均値Eg(i,k)と、各正規化信号値ZGRIDg(i,k)とが入力され、式(23)と同様に分散σg (i,k)を計算し出力する。
【0070】
さらに尖度計算部16hに、分散σg(i,k)と、平均値Eg(i,k)と、各正規化信号値ZGRIDg(i,k)とが入力され、尖度計算部16hは、例えば以下の式(24)によって尖度Hg(i,k)を求めて出力する。
【0071】
【数15】
JP0005147012B2_000016t.gif
尖度計算部16hから出力された各グリッドの偏在値Hg(i,k)は、平均部16dに入力される。平均部16dは、同一のフレームiに対応する各グリッドの偏在値Hg(i,k)を平均し、その平均値を当該フレームiの偏在性指標値H(i)として算出する。
【0072】
また、標準偏差等その他正規化信号値ZGRIDg(i,k)の偏在性を示す統計量を各グリッドの偏在値Hg(i,k)とし、それをフレームi毎に平均して偏在性指標値H(i)としてもよい。
【0073】
さらに、時間周波数ビン(i,k)毎に2種類以上の正規化信号値ZGRIDg(i,k)(例えば位相差と振幅比)が生成されている場合には、当該2種類以上の正規化信号値ZGRIDg(i,k)の偏在性をそれぞれ示す2以上の偏在性指標値H(i)を算出してもよいし、当該2種類以上の正規化信号値ZGRIDg(i,k)を要素とするベクトルの偏在性を示す偏在性指標値H(i)を算出してもよいが、2以上の偏在性指標値H(i)を算出する場合と1種類の偏在性指標値H(i)を算出する場合とでは、後述する判定部17での処理内容が相違する(《偏在性指標値H(i)の変形例》[ステップS7の例]の説明終わり)。
【0074】
上述のように偏在性指標値算出部16から出力された正規偏在性指標値H(i)は、判定部17に入力され、判定部17は、偏在性指標値H(i)を指標とし、各フレームが目的信号区間であるか否かを判定する(ステップS8)。
【0075】
本形態の判定部17は、判定対象のフレームの偏在性指標値と、非目的信号区間のフレームの偏在性指標値と、の比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に判定対象のフレームが目的信号区間であると判定するか、当該所定の閾値を超える場合に判定対象のフレームが目的信号区間であると判定する。
【0076】
[ステップS8の詳細]
図3及び図6に示す例では、まず、判定部17の相対値算出部17a(図3)は、式(21)によって算出されて偏在性指標値算出部16から出力された偏在性指標値のうち、判定対象のフレームの偏在性指標値H’(i)とし、目的信号が存在しないと推定される非目的信号区間のフレームの偏在性指標値λとし、それらの比である除算値γ(i)を以下のように算出して出力する(ステップS81)。なお、目的信号が存在しないと推定される非目的信号区間の一例、例えば、i=1,...,20などの初期区間である。
【0077】
γ(i)=H’(i)/λ ...(25)
次に、尤度比算出部17bに除算値γ(i)が入力され、尤度比算出部17bは、以下の式(26)に従って尤度比Λ(i)を算出して出力する(ステップS82)。なお、式(26)の対数は自然対数である。また、この尤度比の計算式は、例えば、Shon, J, Kim, N.-S., and Sung, W., “A Statistical Model-based Voice Activity Detection,” IEEE Signal Processing Letters, Vol. 6, No. 1, pp.1-3, 1999.等に開示されている。
【0078】
【数16】
JP0005147012B2_000017t.gif
次に、閾値判定部17cに尤度比Λ(i)が入力され、閾値判定部17cは尤度比Λ(i)と所定の閾値thとを比較し、尤度比Λ(i)に対応するフレームiが目的信号区間であるか否か、すなわち、フレームiが目的信号区間であるか否かを判定し、その判定結果を出力する(ステップS83)。具体的には、閾値判定部17cは、例えば、尤度比Λ(i)が所定の閾値thより大きい場合(「閾値th以上の場合」としてもよい)、目的信号がフレームiに含まれるとして1を出力し(ステップS84)、尤度比Λ(i)が所定の閾値thより小さい場合(「閾値th以下の場合」としてもよい)、目的信号がフレームiに含まれないとして0を出力する(ステップS85)。なお、閾値thは、尤度比Λ(i)の時間長平均(複数のフレームiに対する平均)や分散などの統計量を用いて設定されてもよいし、th=0.2などの固定値を事前に設定しておいてもよい。分散などの統計量を用いて閾値thを設定する場合の一例としては、目的信号が存在しないと推定されるフレームを判定対象のフレームとして尤度比Λ(i)を求め、それらの平均値から所定のマージンを設けた値を閾値thとする方法がある。
【0079】
なお、偏在性指標値H(i)を指標として目的信号区間を判定する方法はこれに限定されない。前述のように偏在性指標値H(i)の大きさは、各フレームiが目的信号区間であるか否かによって変化する値である。偏在性指標値H(i)の大きさを評価し、その評価結果を各フレームiが目的信号区間であるか否かの判定結果に対応付ける方法であれば、どのような方法を用いてもよい。以下に目的信号区間判定方法の変形例を示す。
【0080】
[目的信号区間判定方法の変形例]
例えば、図3の判定部17の代わりに、図9の判定部17を用いてもよい(目的信号区間判定方法の変形例1)。この変形例の場合、第1値算出部17aに前述の判定対象のフレームの偏在性指標値H’(i)と、目的信号が存在しないと推定される非目的信号区間のフレームの偏在性指標値λとが入力され、それらの比である除算値γ(i)を上述の式(25)のように算出して出力する。次に、閾値判定部17dに除算値γ(i)が入力され、閾値判定部17dは、フレームi毎に除算値γ(i)と閾値thとを比較し、除算値γ(i)が閾値thよりも大きい場合(「閾値th以上の場合」としてもよい)、除算値γ(i)に対応するフレームiが目的信号区間に対応し、そうでなければ除算値γ(i)に対応するフレームiが非目的信号区間であると判定し、その判定結果(1 or 0)を出力する。また、除算値γ(i)を用いる代わりに、偏在性指標値H’(i)から偏在性指標値λを減算した減算値を用い、その減算値に対して上記と同様な閾値処理を行って、目的信号区間であるか否かを推定してもよい。
【0081】
また、例えば、図3の判定部17の代わりに、図10(a)の判定部17を用いてもよい(目的信号区間判定方法の変形例2)。この変形例の場合、判定部17の閾値判定部17iに、式(21)によって算出されて偏在性指標値算出部16から出力された偏在性指標値H(i)が入力され、閾値判定部17iは、フレームi毎に除算値γ(i)と閾値thとを比較し、除算値γ(i)が閾値thよりも大きい場合(「閾値th以上の場合」としてもよい)、除算値γ(i)に対応するフレームiが目的信号区間に対応し、そうでなければ除算値γ(i)に対応するフレームiが非目的信号区間に対応すると判定し、その判定結果(1 or 0)を出力する。なお、閾値thは、例えば、閾値算出部17hが入力された偏在性指標値H(i)のフレームi毎の平均値等の統計量をもとに動的に設定される。また、閾値thは固定値であってもよい。
【0082】
なお、上述した以外の偏在性指標値H(i)を用い、上述のように目的信号区間を判定してもよい。この場合の閾値判定は偏在性指標値H(i)の特性による。すなわち、偏在性が高いほど値が大きくなる偏在性指標値H(i)を用いる際には、偏在性指標値H(i)又はその写像が所定の閾値を超えた場合(又は「以上の場合」)に目的信号区間であると判定し、偏在性指標値H(i)又はその写像が所定の閾値を未満場合(又は「以下の場合」)に目的信号区間でないと判定する。一方、偏在性が低いほど値が大きくなる偏在性指標値H(i)を用いる際には、偏在性指標値H(i)又はその写像が所定の閾値を超えた場合(又は「以上の場合」)に目的信号区間でないと判定し、偏在性指標値H(i)又はその写像が所定の閾値を未満場合(又は「以下の場合」)に目的信号区間であると判定する。
【0083】
また、時間周波数ビン(i,k)毎に2種類以上の正規化信号値ZGRIDg(i,k)が生成され、各グリッドに属する2種類以上の正規化信号値ZGRIDg(i,k)を要素とするベクトルの偏在性を示す偏在性指標値H(i)がフレームi毎に算出されている場合であっても、判定部17は、上述と同様に目的信号区間であるか否かの判定を行うことができる。
【0084】
一方、時間周波数ビン(i,k)毎に2種類以上の正規化信号値ZGRIDg(i,k)が生成され、各グリッドに属する2種類以上の正規化信号値ZGRIDg(i,k)の偏在性をそれぞれ示す2以上の偏在性指標値H(i)がフレームi毎に算出されている場合、判定部17は、例えば、フレームi毎の2以上の偏在性指標値H(i)に重み付けを行い、当該重み付け後の偏在性指標値を指標とし、各フレームiが目的信号区間であるか否かを判定する。具体的には、例えば、2以上の偏在性指標値H(i)の重み付け和が所定の閾値を超えるか否かによって、フレームiが目的信号区間であるか否かを判定する。
【0085】
また、上述のように偏在性指標値H(i)又はその写像と、所定の閾値との大小を比較して目的信号区間であるか否かを判定する代わりに、事前学習されたフレームの偏在性指標値と当該フレームが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するフレームが目的信号区間に対応するか否かを判定してもよい。この場合、例えば、図10(b)の判定部17のように、パラメータ学習部17hに、フレームの音響特徴量(偏在性指標値やγ(i)など)と当該フレームが目的信号区間であるか否かの判定結果との組からなる学習サンプルを入力し、パラメータ学習部17hでパターン認識学習を行い、モデルパラメータを求める。そして、パターン認識部17iにこのパラメータと判定対象の偏在性指標値H(i)とを入力し、パターン認識によって偏在性指標値H(i)に対応するフレームiが目的信号区間のものであるか否かを判定する。なお、パターン認識技術には、例えば、公知のサポートベクターマシーン(津田宏治,“サポートベクターマシーンとは何か”,電子情報通信学会誌,2000:460~466頁)や、隠れマルコフモデル(北研二,中村哲,永田昌明,“音声言語処理”,森出版株式会社,1996:57~90頁)等を利用する。
【0086】
判定部17が、目的信号区間であるか否かの判定結果を出力するのではなく、前述の尤度比Λ(i)そのもの、または、それを確率値に変換したΛ(i)/(1+Λ(i))などを出力してもよい。
【0087】
<実験結果>
本形態の効果を示すための実験結果を示す。この実験では、センサとして2本のマイクロフォンを用い、音声信号と雑音信号が混在する音響信号を観測し、その音響信号を本形態の信号区間推定方法によって分析し、音声信号区間を検出する実施例を示す。なお、この実験では、正規化信号値Z (i,k)として信号到来方向推定値を用い、偏在性指標値H(i)として式(21)によって算出されて偏在性指標値算出部16から出力された偏在性指標値を用いて目的信号区間の推定を行った。
【0088】
使用した音響信号データは大学の研究室内で学生がポスターを用いて自身の研究の発表を行っている発話を収録した信号で、サンプリング周波数16kHz、量子化ビット数16ビットで離散サンプリングされたものを用いた。収録には2本のマイクロフォンを用いており、2本のマイクロフォンは同一直線上に4cmの間隔で配置されている。図12(a)に収録された音響信号を示す。なお、図12(a)における横軸は時間であり、縦軸は音響信号の振幅である。この音響信号には、冒頭の部分にポスター発表が行われている研究室のドアを開閉する音(方向性雑音)が混入している。この音響信号に対し、本形態による信号区間推定方法を、1フレームの時間長を32ms(512サンプル点)とし、16ms(256サンプル点)毎にフレーム始点を移動させて適用する。図12(b)は、これによって各フレームで推定された偏在性指標値H(i)(音響特徴量)を示すグラフである。なお、図12(a)における横軸は時間であり、縦軸は偏在性指標値H(i)の振幅である。また、非特許文献6記載の方法で求まる偏在性指標値H(i)を図12(c)に示す。
【0089】
図示のように本形態による目的信号区間推定方法により出力される偏在性指標値H(i)が、音声信号の存在区間Bでは高い値を示し、それ以外の区間では小さい値を示すことがわかる。また、図12(b)と(c)とを比較すると、図12(a)のデータに含まれるドアの開閉音のみが収録されている区間Aにおいて、本形態による手法では偏在性指標値H(i)の値が小さいままなのに対し(図12(b))、非特許文献6記載の方法では音声信号区間と同程度の高い値が見られる(図12(c))。このことから、本形態によって得られる偏在性指標値H(i)が、調波性を持たない、ドアの開閉音のような方向性雑音に対し頑健であることがわかる。加えて、本形態では基本周波数とその倍音成分の近傍における到達時間差の偏在性のみを利用しているため、全時間周波数帯域で到達時間差の偏在性を計算する非特許文献6記載の方法よりも高速に偏在性指標値H(i)を計算できる。この実験においては、本形態の方法は非特許文献6記載の方法の9%の計算時間で音響特徴の計算を行うことができた。なお、最悪の計算量は、
(サンプリング周波数/基本周波数推定の探索範囲の下限周波数)/離散フーリエ変換の点数
により計算することができる。本形態に例示したサンプリング周波数(16kHz)と離散フーリエ変換の点数(512点)、及び基本周波数推定の探索範囲の下限周波数(50Hz)の場合は、(16000/50)/512=約31.25%の計算量で済む。実際は、推定される基本周波数の値は50~500Hzに分布するため、上記の実験により示されたように、最悪の計算量よりも少ない時間で計算が可能となる。
【0090】
以上のことから、本形態により、方向性雑音の影響を受けにくく、高速に目的音響信号区間を検出することが可能になることがわかる。なお、非特許文献6記載の方法と比較して、本形態では観測信号の基本周波数を推定する必要があるが、本形態記載の基本周波数推定方法は高速での実行が可能であることから、全体の計算量には影響を与えない。
【0091】
なお、本発明は上述の実施の形態に限定されるものではない。例えば、本形態のステップS4では、基本周波数推定部13が全てのセンサに対応する基本周波数を推定し、それらをそれ以降の各センサに対応する処理にそれぞれ利用することとした。しかし、ステップS4において、基本周波数推定部13が一部のセンサ(例えば1つのセンサ)に対応する基本周波数のみを推定し、それをそれ以降の全てのセンサに対応する処理に利用してもよい。
【0092】
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、信号区間推定装置10がサンプリング部30を包含する構成であってもよいし、信号区間推定装置10の機能を複数のコンピュータで分散処理する構成であってもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0093】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0094】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0095】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0096】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0097】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい
【産業上の利用可能性】
【0098】
本発明の利用分野としては、例えば、音声信号や音楽信号などの目的信号が雑音信号とともに観測される環境においてなされる、目的信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理分野を例示できる。もちろん、音響信号以外の信号処理に本発明を適用してもかまわない。
【図面の簡単な説明】
【0099】
【図1】図1は、本形態の目的信号区間推定装置の全体構成を例示したブロック図である。
【図2】図2は、図1の偏在性指標値算出部16の詳細構成を例示したブロック図である。
【図3】図3は、図1の判定部17の詳細構成を例示したブロック図である。
【図4】図4は、本形態の目的信号区間推定方法を説明するためのフローチャートである。
【図5】図5は、ステップS7の詳細を説明するためのフローチャートである。
【図6】図6は、ステップS8の詳細を説明するためのフローチャートである。
【図7】図7は、偏在性指標値算出部の構成例を示すブロック図である。
【図8】図8は、偏在性指標値算出部の構成例を示すブロック図である。
【図9】図9は、判定部の構成例を示すブロック図である。
【図10】図10(a)(b)は、判定部の構成例を示すブロック図である。
【図11】図11(a)(b)は、本形態の処理によって得られたヒストグラムを示すグラフである。
【図12】図12(a)は、実験において収録された音響信号を示すグラフである。図12(b)は、実験において各フレームで推定された偏在性指標値H(i)(音響特徴量)を示すグラフである。図12(c)は、非特許文献6記載の方法で求まる偏在性指標値H(i) を示すグラフである。
【符号の説明】
【0100】
10 信号区間推定装置
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11