TOP > 国内特許検索 > 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法

近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 コモンズ

国内特許コード P140010597
整理番号 07-38
掲載日 2014年6月3日
出願番号 特願2007-198664
公開番号 特開2009-036810
登録番号 特許第5123595号
出願日 平成19年7月31日(2007.7.31)
公開日 平成21年2月19日(2009.2.19)
登録日 平成24年11月2日(2012.11.2)
発明者
  • 西村 竜一
  • 井ノ上 直己
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 コモンズ
発明の概要 【課題】 室伝達関数の推定とその逆フィルタを用いることもなく、遠方音を抑圧して近傍音のみを強調し得る、近傍場音源分離を提供すること。
【解決手段】 2次元平面上において一の音源に対して所定の間隔を隔てて配置されたマイクロホン間の振幅比に基づいて近傍場音源を分離するために、各マイクロホンの振幅を抽出しマイクロホン間の振幅比を求めて当該振幅比からSN比を推定し、これに、各音源距離に対するSN比と振幅比との関係を距離減衰に基づき計算してデータベース化された複数の重み関数の中から入力された強調したい音源からの距離に応じて選択された重み関数を用いて重み付けを行ない、それによって近傍場音の強調を行なう。
【選択図】 図4
従来技術、競合技術の概要


情報化社会においては、より多くの情報を収集し、それを分析・解析することが新しい価値及び情報を生み出すと言われている。例えば、相手の現在の状況及び表情、仕草等から相手の心情を理解することができれば、より円滑なコミュニケーションの実現が可能となる。しかし、現在の遠隔通信では、通信帯域の制約により、音響情報だけを取ってみても、「ことば」を伝達することに主眼が置かれ、声色又は話者の置かれている環境の音等、他の要素の伝達を犠牲にしている面が少なくない。



これに対し、「超臨場感通信」では、上記の補助情報も伝達することで、より高次なコミュニケーションの実現を目指している。その一例を挙げると、動作には音響的イベントを伴うことが多いため、相手の仕草及び状況は視覚ばかりではなく、音響的にも伝達することが可能である。これらの音は一般的にエネルギーが小さい。そのため、音源の近傍でしか聴取できないが、逆にそれらが聞こえることで、臨場感を高められると期待できる。



ところが、実際の環境下では、エネルギーの大きな数々の外来音が重畳するため、上記の音のみを収音することは非常に困難なタスクとなる。



また、頭部伝達関数(HRTF:Head Related Transfer Function)に基づく立体音合成技術(非特許文献1及び非特許文献2参照)では、音源が頭部近傍に存在するときと遠方に存在するときとで、用いるべきHRTFを違える必要があると予想される。これは、音源が近傍に存在する場合には、音源が遠方にある場合に比べて、頭部又は肩における反射及び回折による影響が大きくなることに依存している。したがって、臨場感通信における受信側において、上記の頭部伝達関数に基づく立体音響技術を用いて臨場感音場再生を行なうには、送信側においても近傍音と遠方音とを分離して収音する必要がある。



この目的を実現するには、マイクロホンアレイを用いたアレイ信号処理による音源分離手法が有力である。最も基本的な構造の1つは、delay-and-sumに基づく手法である。ただし、この手法は、マイクロホンアレイへの入射角度に応じてゲイン特性が変化するフィルタを形成するものであって、音源の距離に応じて変化するものでは必ずしもない。



一方で、非常に多くのマイクロホンを用いて、ある程度広い空間の音場全体を収音する試みも行われている(非特許文献3及び非特許文献4参照)。しかし、大掛かりなシステムでは汎用性に欠け、利用できる場面が限られる、という実際的な応用面での問題が考えられる。



また、何れの場合でも、位相差に着目した手法は、空間エイリアシングの問題が不可避であり、適用範囲を高い周波数まで広げるためには、マイクロホンを密に配置しなければならない。これにより、システムの規模及び隣接するマイクロホンの影響が新たな問題を生む可能性もある。



近傍場音に対するビームフォーミングに関する研究としては、遠方場に対する指向性合成を基にして近傍場用のフィルタを設計する手法が提案されている(非特許文献5参照)。しかし、この手法も、指向性の制御であり、距離に関する分離は基本的に困難である。



また、部分空間法に基づいて近傍場の音源分離を行なう手法も提案されている(非特許文献6参照)。この手法では、近傍場に存在する音源の位置を部分空間法により推定し、その推定した位置に基づいて空間逆フィルタを設計することで分離を行なうものである。



ここで、近傍場であるという条件は、部分空間法により音源方向に基づいて処理する(非特許文献7参照)ばかりでなく、距離に関する情報も得るために利用されている。



一方、音源位置に関する先験的知識を一切使用せずに音源信号の性質のみに着目した分離手法として、独立成分分析(ICA)に基づく手法が高い性能を示している(非特許文献8~非特許文献10)。この分析手法は、音源信号の独立性が規範となるため、複数話者の混合音の分離等では有力であるが、同一話者を音源とする反射音のある空間での分離、及び衣擦れ音又はキーボードのタイプ音のように音源自体の性質が白色性の信号の分離では、必ずしも高い性能が期待できない。



【非特許文献1】
E.M. ウェンゼル、J.D.ミラー及びJ.Sアベル、「対話型空間音声合成のためのソフトウェアベースシステム」ICAD2000予稿集(2000年)。(E. M.Wenzel, J. D. Miller and J. S. Abel: “A software-based system for interactive spatial sound synthesis”, In proc. of ICAD 2000 (2000).)
【非特許文献2】
L.サビオラ、J.フオパニエミ、T.ロッキ及びR.ヴェナーネン、「対話型仮想音響環境の生成」音声工学学会誌、47、9、675-705ページ(1999年)。(L. Savioja, J. Huopaniemi, T. Lokki and R. V▲a▼▲a▼n▲a▼nen: “Creating interactive virtual acoustic environments”, J. Audio Eng. Soc., 47, 9, pp. 675-705 (1999).)
【非特許文献3】
M.S.ブランドシュタイン及びD.B.ワード、「マイクロホンアレイでの音声獲得のためのセルベースのビーム形成(ce-base)」IEEE音声及び音響処理トランザクション、8、6、738-743ページ(2000年)。(M. S. Brandstein and D. B. Ward: “Cell-based beam forming (ce-base) for speech acquisition with microphone arrays”, IEEE Trans. on Speech and Audio Processing, 8, 6, pp.738-743 (2000).)
【非特許文献4】
T.オカモト、R.ニシムラ及びY.イワヤ、「周囲のマイクロホンアレイを用いた音源位置の推定」、音響科学及び技術、28、3、181-189ページ(2007年)。(T. Okamoto, R. Nishimura and Y. Iwaya: “Estimation of sound source positions using a surrounding microphone array”, Acoust. Sci. & Tech., 28, 3, pp. 181-189 (2007).)
【非特許文献5】
R.A.ケネディ、D.B.ワード及びT.D.アブハヤパラ、「ラジアル相互関係を用いた近傍場ビーム形成」IEEE信号処理トランザクション、47、1、33-40ページ(1999年)。(R. A. Kennedy, D. B. Ward and T. D. Abhayapala: “Near field beam forming using radial reciprocity”, IEEE Trans. on Signal Processing, 47, 1, pp. 33-40 (1999).)
【非特許文献6】
F.アサノ、H.アソー及びT.マツイ、「近傍場における音源の局所化及び分離」IEICE基礎工学トランザクション、83、11、2286-2294ページ(2000年)。(F. Asano, H. Asoh and T. Matsui: “Sound source localization and separation in near field”, IEICE Trans. on Fundamentals, 83, 11, pp. 2286-2294 (2000).)
【非特許文献7】
F.アサノ、S.ハヤミズ、T.ヤマダ及びS.ナカムラ、「サブ空間法に基づく音声の向上」IEEE音声及び音響処理トランザクション、8、5、497-507ページ(2000年)。(F. Asano, S. Hayamizu, T. Yamada and S. Nakamura: “Speech enhancement based on the subspace method”, IEEE Trans. on Speech and Audio Processing, 8, 5, pp.497-507 (2000).)
【非特許文献8】
J.F.カルドーソ及びA.ソウルオウミアク、「非ガウス信号のためのブラインドビーム形成」IEE予稿集、140、6、362-370ページ(1993年)。(J. F. Cardoso and A. Souloumiac: “Blind beam forming for non-gaussian signals”, IEE Proceedings, 140, 6, pp. 362-370 (1993).)
【非特許文献9】
F.エーラース及びH.G.シュスター、「畳込み混合のブラインド分離と雑音環境での自動音声認識における応用」IEEE信号処理トランザクション、45、10、2608-2612ページ(1997年)。(F. Ehlers and H. G. Schuster: “Blind separation of convolutive mixtures and an application in automatic speech recognition in a noisy environment”, IEEE Trans. on Signal Processing, 45, 10, pp. 2608-2612 (1997).)
【非特許文献10】
H.サワダ、R.ムカイ、S.アラキ及びS.マキノ、「周波数ドメインのブラインド音源分離における置換問題の頑健かつ精密な解決方法」、IEEE音声及び音響処理トランザクション、12、5、530-538ページ(2004年)。(H. Sawada, R. Mukai, S. Araki and S. Makino: “A robust and precise method for solving the permutation problem of frequency-domain blind source separation”, IEEE Trans. on Speech and Audio Processing, 12, 5, pp. 530-538 (2004).)

産業上の利用分野



本発明は、マイクロホン間の振幅比に基づいて近傍場音源を分離するための、プログラム、及び同プログラムを記録したコンピュータ読取可能な記録媒体、並びに方法に関する。

特許請求の範囲 【請求項1】
2次元平面上において一の音源に対して所定の間隔を隔てて配置された第1及び第2のマイクロホンからの音源観測信号間の振幅比に基づいて近傍場音源を分離するために、コ
ンピュータを、
強調したい音源からの距離が入力されると、これに応じた重み関数を複数の重み関数の中から選択するための重み関数選択手段として機能させる近傍場音源分離プログラムであって、当該複数の重み関数は、各音源距離に対するSN比と振幅比との関係を距離減衰に基づき予め計算することによりデータベース化されており
前記近傍場音源分離プログラムはさらに、前記コンピュータを、
前記第2のマイクロホンからの音源観測信号の振幅に対する前記第1のマイクロホンからの音源観測信号の振幅比を周波数成分ごとに求め当該振幅比から、周波数成分ごとの重み係数を前記重み関数選択手段により選択された重み関数により求め、前記第1のマイクロホンの出力を周波数成分ごとに前記重み係数により重み付けし、得られた結果を時間領域に変換することにより、近傍場音の強調を行なうための近傍場音強調手段、として機能させる近傍場音源分離プログラム。

【請求項2】
前記近傍場音強調手段は、
入力された各マイクロホンの音源観測信号を周波数領域に変換する第1の線形変換を行なうための第1の手段、
前記第1の手段による第1の線形変換で得られた結果を基にして各マイクロホンからの音源観測信号の振幅を周波数成分ごとに抽出するための第2の手段、
前記第2の手段により抽出された、前記第2のマイクロホンの音源観測信号の振幅に対する前記第1のマイクロホンの音源観測信号の振幅比を周波数成分ごとに求めるための第3の手段、
前記重み関数選択手段により選択された重み関数に基づいて、前記第3の手段により求められたマイクロホン間の周波数成分ごとの振幅比に応じた重み係数を求めることにより、前記第1のマイクロホンの出力の周波数成分ごとの重みを求めるための第4の手段、
前記第1の手段による第1の線形変換で得られた、前記第1のマイクロホン側の結果と前記第4の手段で求められた重みとを周波数成分ごとに掛け合わせるための第5の手段、及び
前記第5の手段により周波数成分ごとに得られた演算結果に対して前記第1の線形変換の逆変換に対応する第2の線形変換を行なって時間領域に変換するための第6の手段を含む、請求項1に記載の近傍場音源分離プログラム。

【請求項3】
2次元平面上において一の音源に対して所定の間隔を隔てて配置された第1及び第2のマイクロホンからの音源観測信号間の振幅比に基づいて近傍場音源を分離するために、コンピュータを、
強調したい音源からの距離が入力されると、これに応じた重み関数を複数の重み関数の中から選択するための重み関数選択手段として機能させる近傍場音源分離プログラムを記録したコンピュータ読取可能な記録媒体であって、当該複数の重み関数は、各音源に対するSN比と振幅比との関係を距離減衰に基づき予め計算することによりデータベース化されており
前記近傍場音源分離プログラムはさらに、前記コンピュータを、
前記第2のマイクロホンからの音源観測信号の振幅に対する前記第1のマイクロホンからの音源観測信号の振幅比を周波数成分ごとに求め当該振幅比から、周波数成分ごとの重み係数を前記重み関数選択手段により選択された重み関数により求め、前記第1のマイクロホンの出力を周波数成分ごとに前記重み係数により重み付けし、得られた結果を時間領域に変換することにより、近傍場音の強調を行なうための近傍場音強調手段、として機能させる近傍場音源分離プログラムを記録したコンピュータ読取可能な記録媒体。

【請求項4】
2次元平面上において一の音源に対して所定の間隔を隔てて配置された第1及び第2のマイクロホンからの音源観測信号間の振幅比に基づいて近傍場音源を分離するための方法であって、
強調したい音源からの距離が入力されると、これに応じた重み関数を複数の重み関数の中から選択するための第1のステップを含み、当該複数の重み関数は、各音源距離に対するSN比と振幅比との関係を距離減衰に基づき予め計算することによりデータベース化されており
前記第2のマイクロホンからの音源観測信号の振幅に対する前記第1のマイクロホンからの音源観測信号の振幅比を周波数成分ごとに求め当該振幅比から、周波数成分ごとの重み係数を前記第1のステップにおいて選択された重み関数により求め、前記第1のマイクロホンの出力を周波数成分ごとに前記重み係数により重み付けし、得られた結果を時間領域に変換することにより、近傍場音の強調を行なうための第2のステップと、を含む近傍場音源分離方法。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2007198664thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close