Top > Search of Japanese Patents > SOUND SOURCE SEPARATION AND LOCALIZATION DEVICE, METHOD AND PROGRAM

SOUND SOURCE SEPARATION AND LOCALIZATION DEVICE, METHOD AND PROGRAM

Patent code P150012414
File No. 3860
Posted date Oct 16, 2015
Application number P2012-160450
Publication number P2014-021315A
Patent number P5791081
Date of filing Jul 19, 2012
Date of publication of application Feb 3, 2014
Date of registration Aug 14, 2015
Inventor
  • (In Japanese)石黒 勝彦
  • (In Japanese)澤田 宏
  • (In Japanese)大塚 琢馬
  • (In Japanese)奥乃 博
Applicant
  • (In Japanese)日本電信電話株式会社
  • (In Japanese)国立大学法人京都大学
Title SOUND SOURCE SEPARATION AND LOCALIZATION DEVICE, METHOD AND PROGRAM
Abstract PROBLEM TO BE SOLVED: To achieve high performance stably with respect to problems of both sound source separation and sound source localization.
SOLUTION: A mixed sound observation unit 11 receives a mixed sound signal in which each sound of a mixed sound generating from each of a plurality of sound sources is observed by a microphone array. A time frequency domain observation conversion unit 12 converts the mixed sound signal into an observation signal xtf of the time frequency domain. A sound source time frequency mask variable calculation unit 22 calculates a mask variable ξtfk using the statistics and a sound source localization variable ηkd. A sound source localization variable calculation unit 23 calculates a sound source localization variable ηkd using the statistics and the mask variable ξtfk. A statistics calculation unit 24 calculates various kinds of statistical amount. A convergence condition determination unit 25 makes the processing of the sound source time frequency mask variable calculation unit 22, the sound source localization variable calculation unit 23 and the statistics calculation unit 24 repeat until a predetermined convergence condition is satisfied, and if the convergence condition is satisfied, an analysis result is output from an output unit 4.
Outline of related art and contending technology (In Japanese)

複数の音源の各々から発せられた音の重ね合わせである環境音(以下、混合音と呼ぶ)を個別の音源毎の音へと分離する音源分離技術は非常に古い歴史を持つ技術である。この技術は、例えば、会議の様子を録音した混合音から会議の議事録を作成するための発話者分離などに利用することができる。また、混合音を観測した複数のマイクの位置関係及び各マイクで観測された音から、各音源の相対位置及び方向を計算する音源定位技術は、例えば、環境中を自律移動するロボットや機械の自己位置同定や障害物回避などのための基礎的な技術として、非常に多くの手法が提案されている(例えば、非特許文献1~3)。

非特許文献1では、各時刻と各周波数とにおいては、通常高々1つの音源からの信号しか観測されない、という音源のスパース性を利用した音源分離法を提案している。非特許文献2では、ロボットでの利用を前提とした音源の分離及び定位を行うシステムを提案している。非特許文献3では、音源数よりも多いマイクを用いた音源分離手法を提案している。

この音源分離及び音源定位の2つの問題は、互いに深く密接に関係した相互依存の問題であることが知られている。例えば、複数の音源の位置が分かっている場合には、ビームフォーマという技術を使うことで各音源のみの分離音を精度よく復元できることが知られている。一方、各音源の音が分離できている場合に、各音源の位置を決定することも比較的容易である。

Field of industrial application (In Japanese)

本発明は、音源分離定位装置、方法、及びプログラムに係り、特に、複数の音源の各々から発せられた音の混合音から、個別の音源毎の音を分離すると共に、各音源の方向を定位する音源分離定位装置、方法、及びプログラムに関する。

Scope of claims (In Japanese)
【請求項1】
 
複数の音源の各々から発せられた各音の混合音を、各々異なる位置に配置された複数の観測手段により観測した混合音信号を受け付ける受付手段と、
前記受付手段により受け付けた混合音信号を、前記複数の音源の各々に対応するように分離する音源分離と、前記観測手段を基準とした前記複数の音源の各々が存在する方向を推定する音源定位とを、前記音源分離と前記音源定位とで相互に依存させた変数を用いて反復処理する同時最適化により解析する解析手段と、
前記解析手段により解析された音源分離及び音源定位の結果を出力する出力手段と、を含み、
前記受付手段は、前記混合音信号を、時間フレームt及び周波数ビンf毎の各要素からなる時間周波数領域の観測信号xtfに変換して前記解析手段に受け渡し、
前記解析手段は、
前記観測信号xtfの各要素が、仮想的に設定した複数の音源の各々へ該各要素を割り当てる複数のマスクのk番目のマスクに対応する信号である確率を表すマスク変数ξtfkを、前記複数のマスクの各々について計算する音源時間周波数マスク変数計算手段と、
前記k番目のマスクに対応した音源が、前記観測手段を基準として分割された複数の方向のd番目の方向に存在する確率を表す音源定位変数ηkdを、前記複数の方向の各々について計算する音源定位変数計算手段と、
前記マスク変数ξtfk及び前記音源定位変数ηkdの計算に用いられる統計量を計算する統計量計算手段と、
前記音源時間周波数マスク変数計算手段、前記音源定位変数計算手段、及び前記統計量計算手段の計算を、予め定めた収束条件を満たすまで反復させる収束条件判定手段と、を含み、
前記マスク変数ξtfkの計算に前記音源定位変数ηkdを用い、前記音源定位変数ηkdの計算に前記マスク変数ξtfkを用いる
源分離定位装置。

【請求項2】
 
前記解析手段は、無響環境において測定された前記複数の観測手段のステアリングベクトルを用いて、前記音源分離及び前記音源定位を解析する請求項1記載の音源分離定位装置。

【請求項3】
 
受付手段と、音源時間周波数マスク変数計算手段、音源定位変数計算手段、統計量計算手段、及び収束条件判定手段を含む解析手段と、出力手段とを含む音源分離定位装置における音源分離定位方法であって、
前記受付手段が、複数の音源の各々から発せられた各音の混合音を、各々異なる位置に配置された複数の観測手段により観測した混合音信号を受け付け、
前記解析手段が、前記受付手段により受け付けた混合音信号を、前記複数の音源の各々に対応するように分離する音源分離と、前記観測手段を基準とした前記複数の音源の各々が存在する方向を推定する音源定位とを、前記音源分離と前記音源定位とで相互に依存させた変数を用いて反復処理する同時最適化により解析し、
前記出力手段が、前記解析手段により解析された音源分離及び音源定位の結果を出力する音源分離定位方法において、
前記受付手段が、前記混合音信号を、時間フレームt及び周波数ビンf毎の各要素からなる時間周波数領域の観測信号xtfに変換して前記解析手段に受け渡し、
前記音源時間周波数マスク変数計算手段が、前記観測信号xtfの各要素が、仮想的に設定した複数の音源の各々へ該各要素を割り当てる複数のマスクのk番目のマスクに対応する信号である確率を表すマスク変数ξtfkを、前記複数のマスクの各々について計算し、
前記音源定位変数計算手段が、前記k番目のマスクに対応した音源が、前記観測手段を基準として分割された複数の方向のd番目の方向に存在する確率を表す音源定位変数ηkdを、前記複数の方向の各々について計算し、
前記統計量計算手段が、前記マスク変数ξtfk及び前記音源定位変数ηkdの計算に用いられる統計量を計算し、
前記収束条件判定手段が、前記音源時間周波数マスク変数計算手段、前記音源定位変数計算手段、及び前記統計量計算手段の計算を、予め定めた収束条件を満たすまで反復させ、
前記マスク変数ξtfkの計算に前記音源定位変数ηkdを用い、前記音源定位変数ηkdの計算に前記マスク変数ξtfkを用いる
源分離定位方法。

【請求項4】
 
前記解析手段が、無響環境において測定された前記複数の観測手段のステアリングベクトルを用いて、前記音源分離及び前記音源定位を解析する請求項3記載の音源分離定位方法。

【請求項5】
 
コンピュータを、請求項1または請求項2記載の音源分離定位装置を構成する各手段として機能させるための音源分離定位プログラム。
IPC(International Patent Classification)
Drawing

※Click image to enlarge.

JP2012160450thum.jpg
State of application right Registered
Please contact us by e-mail or facsimile if you have any interests on this patent. Thanks.


PAGE TOP

close
close
close
close
close
close
close