TOP > 国内特許検索 > 音源分離定位装置、方法、及びプログラム

音源分離定位装置、方法、及びプログラム

国内特許コード P150012414
整理番号 3860
掲載日 2015年10月16日
出願番号 特願2012-160450
公開番号 特開2014-021315
登録番号 特許第5791081号
出願日 平成24年7月19日(2012.7.19)
公開日 平成26年2月3日(2014.2.3)
登録日 平成27年8月14日(2015.8.14)
発明者
  • 石黒 勝彦
  • 澤田 宏
  • 大塚 琢馬
  • 奥乃 博
出願人
  • 日本電信電話株式会社
  • 国立大学法人京都大学
発明の名称 音源分離定位装置、方法、及びプログラム
発明の概要 【課題】音源分離及び音源定位の両方の問題に対して、安定して高い性能を得る。
【解決手段】混合音観測部11が、複数の音源の各々から発生した各音の混合音をマイクロフォンアレイにより観測した混合音信号を受け付け、時間周波数領域観測変換部12が、混合音信号を時間周波数領域の観測信号xtfに変換し、音源時間周波数マスク変数計算部22が、統計量及び音源定位変数ηkdを用いたマスク変数ξtfkを計算し、音源定位変数計算部23が、統計量及びマスク変数ξtfkを用いた音源定位変数ηkdを計算し、統計量計算部24が、各種統計量を計算し、収束条件判定部25が、音源時間周波数マスク変数計算部22、音源定位変数計算部23、及び統計量計算部24の処理を、予め定めた収束条件を満たすまで反復させ、収束条件を満たした場合には、出力部4から解析結果を出力する。
【選択図】図3
従来技術、競合技術の概要


複数の音源の各々から発せられた音の重ね合わせである環境音(以下、混合音と呼ぶ)を個別の音源毎の音へと分離する音源分離技術は非常に古い歴史を持つ技術である。この技術は、例えば、会議の様子を録音した混合音から会議の議事録を作成するための発話者分離などに利用することができる。また、混合音を観測した複数のマイクの位置関係及び各マイクで観測された音から、各音源の相対位置及び方向を計算する音源定位技術は、例えば、環境中を自律移動するロボットや機械の自己位置同定や障害物回避などのための基礎的な技術として、非常に多くの手法が提案されている(例えば、非特許文献1~3)。



非特許文献1では、各時刻と各周波数とにおいては、通常高々1つの音源からの信号しか観測されない、という音源のスパース性を利用した音源分離法を提案している。非特許文献2では、ロボットでの利用を前提とした音源の分離及び定位を行うシステムを提案している。非特許文献3では、音源数よりも多いマイクを用いた音源分離手法を提案している。



この音源分離及び音源定位の2つの問題は、互いに深く密接に関係した相互依存の問題であることが知られている。例えば、複数の音源の位置が分かっている場合には、ビームフォーマという技術を使うことで各音源のみの分離音を精度よく復元できることが知られている。一方、各音源の音が分離できている場合に、各音源の位置を決定することも比較的容易である。

産業上の利用分野


本発明は、音源分離定位装置、方法、及びプログラムに係り、特に、複数の音源の各々から発せられた音の混合音から、個別の音源毎の音を分離すると共に、各音源の方向を定位する音源分離定位装置、方法、及びプログラムに関する。

特許請求の範囲 【請求項1】
複数の音源の各々から発せられた各音の混合音を、各々異なる位置に配置された複数の観測手段により観測した混合音信号を受け付ける受付手段と、
前記受付手段により受け付けた混合音信号を、前記複数の音源の各々に対応するように分離する音源分離と、前記観測手段を基準とした前記複数の音源の各々が存在する方向を推定する音源定位とを、前記音源分離と前記音源定位とで相互に依存させた変数を用いて反復処理する同時最適化により解析する解析手段と、
前記解析手段により解析された音源分離及び音源定位の結果を出力する出力手段と、を含み、
前記受付手段は、前記混合音信号を、時間フレームt及び周波数ビンf毎の各要素からなる時間周波数領域の観測信号xtfに変換して前記解析手段に受け渡し、
前記解析手段は、
前記観測信号xtfの各要素が、仮想的に設定した複数の音源の各々へ該各要素を割り当てる複数のマスクのk番目のマスクに対応する信号である確率を表すマスク変数ξtfkを、前記複数のマスクの各々について計算する音源時間周波数マスク変数計算手段と、
前記k番目のマスクに対応した音源が、前記観測手段を基準として分割された複数の方向のd番目の方向に存在する確率を表す音源定位変数ηkdを、前記複数の方向の各々について計算する音源定位変数計算手段と、
前記マスク変数ξtfk及び前記音源定位変数ηkdの計算に用いられる統計量を計算する統計量計算手段と、
前記音源時間周波数マスク変数計算手段、前記音源定位変数計算手段、及び前記統計量計算手段の計算を、予め定めた収束条件を満たすまで反復させる収束条件判定手段と、を含み、
前記マスク変数ξtfkの計算に前記音源定位変数ηkdを用い、前記音源定位変数ηkdの計算に前記マスク変数ξtfkを用いる
源分離定位装置。

【請求項2】
前記解析手段は、無響環境において測定された前記複数の観測手段のステアリングベクトルを用いて、前記音源分離及び前記音源定位を解析する請求項1記載の音源分離定位装置。

【請求項3】
受付手段と、音源時間周波数マスク変数計算手段、音源定位変数計算手段、統計量計算手段、及び収束条件判定手段を含む解析手段と、出力手段とを含む音源分離定位装置における音源分離定位方法であって、
前記受付手段が、複数の音源の各々から発せられた各音の混合音を、各々異なる位置に配置された複数の観測手段により観測した混合音信号を受け付け、
前記解析手段が、前記受付手段により受け付けた混合音信号を、前記複数の音源の各々に対応するように分離する音源分離と、前記観測手段を基準とした前記複数の音源の各々が存在する方向を推定する音源定位とを、前記音源分離と前記音源定位とで相互に依存させた変数を用いて反復処理する同時最適化により解析し、
前記出力手段が、前記解析手段により解析された音源分離及び音源定位の結果を出力する音源分離定位方法において、
前記受付手段が、前記混合音信号を、時間フレームt及び周波数ビンf毎の各要素からなる時間周波数領域の観測信号xtfに変換して前記解析手段に受け渡し、
前記音源時間周波数マスク変数計算手段が、前記観測信号xtfの各要素が、仮想的に設定した複数の音源の各々へ該各要素を割り当てる複数のマスクのk番目のマスクに対応する信号である確率を表すマスク変数ξtfkを、前記複数のマスクの各々について計算し、
前記音源定位変数計算手段が、前記k番目のマスクに対応した音源が、前記観測手段を基準として分割された複数の方向のd番目の方向に存在する確率を表す音源定位変数ηkdを、前記複数の方向の各々について計算し、
前記統計量計算手段が、前記マスク変数ξtfk及び前記音源定位変数ηkdの計算に用いられる統計量を計算し、
前記収束条件判定手段が、前記音源時間周波数マスク変数計算手段、前記音源定位変数計算手段、及び前記統計量計算手段の計算を、予め定めた収束条件を満たすまで反復させ、
前記マスク変数ξtfkの計算に前記音源定位変数ηkdを用い、前記音源定位変数ηkdの計算に前記マスク変数ξtfkを用いる
源分離定位方法。

【請求項4】
前記解析手段が、無響環境において測定された前記複数の観測手段のステアリングベクトルを用いて、前記音源分離及び前記音源定位を解析する請求項記載の音源分離定位方法。

【請求項5】
コンピュータを、請求項1または請求項記載の音源分離定位装置を構成する各手段として機能させるための音源分離定位プログラム。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2012160450thum.jpg
出願権利状態 登録
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close