TOP > 国内特許検索 > 目的音響信号復元システム及び方法 > 明細書

明細書 :目的音響信号復元システム及び方法

発行国 日本国特許庁(JP)
公報種別 再公表特許(A1)
発行日 平成31年3月22日(2019.3.22)
発明の名称または考案の名称 目的音響信号復元システム及び方法
国際特許分類 G10L  21/0264      (2013.01)
G10L  21/0208      (2013.01)
G10L  21/0232      (2013.01)
FI G10L 21/0264 Z
G10L 21/0208 100A
G10L 21/0208 100Z
G10L 21/0232
国際予備審査の請求 未請求
全頁数 25
出願番号 特願2018-519566 (P2018-519566)
国際出願番号 PCT/JP2017/019259
国際公開番号 WO2017/204226
国際出願日 平成29年5月23日(2017.5.23)
国際公開日 平成29年11月30日(2017.11.30)
優先権出願番号 2016102063
優先日 平成28年5月23日(2016.5.23)
優先権主張国 日本国(JP)
指定国 AP(BW , GH , GM , KE , LR , LS , MW , MZ , NA , RW , SD , SL , ST , SZ , TZ , UG , ZM , ZW) , EA(AM , AZ , BY , KG , KZ , RU , TJ , TM) , EP(AL , AT , BE , BG , CH , CY , CZ , DE , DK , EE , ES , FI , FR , GB , GR , HR , HU , IE , IS , IT , LT , LU , LV , MC , MK , MT , NL , NO , PL , PT , RO , RS , SE , SI , SK , SM , TR) , OA(BF , BJ , CF , CG , CI , CM , GA , GN , GQ , GW , KM , ML , MR , NE , SN , TD , TG) , AE , AG , AL , AM , AO , AT , AU , AZ , BA , BB , BG , BH , BN , BR , BW , BY , BZ , CA , CH , CL , CN , CO , CR , CU , CZ , DE , DJ , DK , DM , DO , DZ , EC , EE , EG , ES , FI , GB , GD , GE , GH , GM , GT , HN , HR , HU , ID , IL , IN , IR , IS , JP , KE , KG , KH , KN , KP , KR , KW , KZ , LA , LC , LK , LR , LS , LU , LY , MA , MD , ME , MG , MK , MN , MW , MX , MY , MZ , NA , NG , NI , NO , NZ , OM , PA , PE , PG , PH , PL , PT , QA , RO , RS , RU , RW , SA , SC , SD , SE , SG , SK , SL , SM , ST , SV , SY , TH , TJ , TM , TN , TR , TT , TZ
発明者または考案者 【氏名】坂東 宜昭
【氏名】吉井 和佳
【氏名】糸山 克寿
【氏名】奥乃 博
出願人 【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
個別代理人の代理人 【識別番号】100091443、【弁理士】、【氏名又は名称】西浦 ▲嗣▼晴
審査請求 未請求
要約 事前情報を用いずに雑音が含まれる音響信号から目的音響信号を高い精度で復元することができる音声信号復元システム及び方法を提供する。Mチャネルの振幅スペクトログラムを入力として、Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース時間周波数成分を含む共通スパース成分を推定する共通スパース成分推定部7を設ける。位相復元部9は、共通スパース成分の位相を復元して目的音響複素スペクトログラムとする。目的音響信号変換部13は、目的音響複素スペクトログラムを時間信号である目的音響信号に変換する。
特許請求の範囲 【請求項1】
M本(Mは2以上の整数)のマイクロホンによって採取したMチャネルの音響信号に含まれる目的音響信号を復元する目的音響信号復元システムであって、
前記M本(Mは2以上の整数)のマイクロホンによって採取した前記Mチャネルの音響信号を時間周波数解析してMチャネルの複素スペクトログラムを得る時間周波数解析部と、
前記Mチャネルの複素スペクトログラムからMチャネルの振幅スペクトログラムを抽出する振幅成分抽出部と、
前記Mチャネルの振幅スペクトログラムを入力として、前記Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース時間周波数成分を含む共通スパース成分を推定する共通スパース成分推定部と、
前記共通スパース成分の位相を復元して目的音響複素スペクトログラムとする位相復元部と、
前記目的音響複素スペクトログラムを時間信号である前記目的音響信号に変換する目的音響信号変換部とからなる目的音響信号復元システム。
【請求項2】
前記共通スパース成分推定部は、前記Mチャネルの振幅スペクトログラムからそれぞれ反復推定i-1回目(iは2以上の正数)の低ランク成分を除いて得たM個のスパース成分を含む残余の総和を、前記共通スパース成分に前記M個のスパース成分が含まれている含有比率の総和で除算して得た結果を反復推定i回目の前記共通スパース成分として推定する請求項1に記載の目的音響信号復元システム。
【請求項3】
前記共通スパース成分推定部は、
前記Mチャネルの振幅スペクトログラムに含まれる低ランク成分の比率を演算する低ランク成分比率演算部と、
前記低ランク成分の比率に基づいて前記Mチャネルの振幅スペクトログラムに含まれるM個の低ランク成分を演算する低ランク成分演算部と、
前記Mチャネルの振幅スペクトログラムに含まれるスパース成分の比率を演算するスパース成分比率演算部と、
前記スパース成分の比率に基づいて前記Mチャネルの振幅スペクトログラムに含まれるM個のスパース成分を含む残余成分を演算する残余成分演算部と、
前記M個のスパース成分を含む残余成分と前記共通スパース成分とに基づいて、前記共通スパース成分に前記M個のスパース成分が含まれている含有比率を前記M個のスパース成分の音量として演算する音量演算部と、
前記M個のスパース成分を含む残余成分の総和を前記M個のスパース成分の音量の総和で除算して前記共通スパース成分を演算する共通スパース成分演算部とを備えて、
前記低ランク成分比率演算部、低ランク成分演算部、スパース成分比率演算部、残余成分演算部、音量演算部及び前記共通スパース成分演算部において反復演算を行うことにより前記共通スパース成分を推定する請求項2に記載の音声信号復元システム。
【請求項4】
前記共通スパース成分推定部は、変分ベイズEM法または逐次変分ベイズEM法により前記共通スパース成分をベイズ推定するベイズ推定器によって構成されている請求項1に記載の音声信号復元システム。
【請求項5】
コンピュータを用いて、M本(Mは2以上の整数)のマイクロホンによって採取したMチャネルの音響信号に含まれる目的音響信号を復元する目的音響信号復元方法であって、
前記M本(Mは2以上の整数)のマイクロホンによって採取した前記Mチャネルの音響信号を時間周波数解析してMチャネルの複素スペクトログラムを得る時間周波数解析ステップと、
前記Mチャネルの複素スペクトログラムからMチャネルの振幅スペクトログラムを抽出する振幅成分抽出ステップと、
前記Mチャネルの振幅スペクトログラムを入力として、前記Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース時間周波数成分を含む共通スパース成分を推定する共通スパース成分推定ステップと、
前記共通スパース成分の位相を復元して目的音響複素スペクトログラムとする位相復元ステップと、
前記目的音響複素スペクトログラムを時間信号である前記目的音響信号に変換する目的音響信号変換ステップとからなる目的音響信号復元方法。
【請求項6】
前記共通スパース成分推定ステップでは、前記Mチャネルの振幅スペクトログラムからそれぞれ反復推定i-1回目の低ランク成分を除いて得たM個のスパース成分を含む残余の総和を、前記共通スパース成分に前記M個のスパース成分が含まれている含有比率の総和で除算して得た結果を反復推定i回目の前記共通スパース成分として推定する請求項5に記載の目的音響信号復元方法。
【請求項7】
前記共通スパース成分推定ステップは、
前記Mチャネルの振幅スペクトログラムに含まれる低ランク成分の比率を演算する低ランク成分比率演算ステップと、
前記低ランク成分の比率に基づいて前記Mチャネルの振幅スペクトログラムに含まれるM個の低ランク成分を演算する低ランク成分演算ステップと、
前記Mチャネルの振幅スペクトログラムに含まれるスパース成分の比率を演算するスパース成分比率演算ステップと、
前記スパース成分の比率に基づいて前記Mチャネルの振幅スペクトログラムに含まれるM個のスパース成分を含む残余成分を演算する残余成分演算ステップと、
前記M個のスパース成分を含む残余成分と前記共通スパース成分とに基づいて、前記共通スパース成分に前記M個のスパース成分が含まれている含有比率を前記M個のスパース成分の音量として演算する音量演算ステップと、
前記M個のスパース成分を含む残余成分の総和を前記M個のスパース成分の音量の総和で除算して前記共通スパース成分を演算する共通スパース成分演算ステップを備えて、
前記低ランク成分比率演算ステップ、前記低ランク成分演算ステップ、前記スパース成分比率演算ステップ、前記残余成分演算ステップ、前記音量演算ステップ及び前記共通スパース成分演算ステップにおいて反復演算を行うことにより前記共通スパース成分を推定する請求項6に記載の音声信号復元方法。
【請求項8】
M本(Mは2以上の整数)のマイクロホンによって採取したMチャネルの音響信号に含まれる目的音響信号を復元する目的音響信号復元方法を、コンピュータを用いて実現するためにコンピュータ読み取り可能な記憶手段に記憶されたコンピュータプログラムであって、
前記M本(Mは2以上の整数)のマイクロホンによって採取した前記Mチャネルの音響信号を時間周波数解析してMチャネルの複素スペクトログラムを得る時間周波数解析ステップと、
前記Mチャネルの複素スペクトログラムからMチャネルの振幅スペクトログラムを抽出する振幅成分抽出ステップと、
前記Mチャネルの振幅スペクトログラムを入力として、前記Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース時間周波数成分を含む共通スパース成分を推定する共通スパース成分推定ステップと、
前記共通スパース成分の位相を復元して目的音響複素スペクトログラムとする位相復元ステップと、
前記目的音響複素スペクトログラムを時間信号である前記目的音響信号に変換する目的音響信号変換ステップを前記コンピュータで実現するための目的音響信号復元用コンピュータプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、低ランク性雑音により妨害された目的音響信号を、観測した複数チャネルの音響信号から復元する目的音響信号復元システム及び方法に関するものである。
【背景技術】
【0002】
非特許文献1には、雑音と目的音響信号の混合音を観測した多チャネル音響信号から、目的音響信号のみを分離できる技術が開示されている。
【0003】
非特許文献2には、複数のマイクロホンによって採取した複数チャネルの音響信号に含まれる音声信号を復元する技術が開示されている。具体的には、マイクロホンアレイを搭載した柔軟索状ロボットで収録した音響信号の音声強調のために、RPCA(ロバスト主成分分析)をマイクロホンアレイに適用する雑音抑圧法が開示されている。この技術では、まず各チャネルにそれぞれRPCA を適用し、各チャネルの共通成分を抽出するために中央値を取って統合している。
【0004】
また非特許文献3に記載の技術では、雑音の事前情報無しで雑音の低ランク性と音声のスパース性から音声強調を行う。
【0005】
さらに特許文献1(特許第5752324号公報)に記載の技術では、単チャネル音響信号からインパルス性(突発的) 雑音を除去する。この技術は、インパルス性雑音を除去する性能は高いが、一方で想定しない持続的な非定常雑音(低ランク雑音) では性能が劣化する。
【0006】
また特許文献2(特開2009-116275公報)に記載の技術では、単チャネル音響信号から平均二乗誤差最小法(MMSE) に基づいて雑音を抑圧する。MMSE は、雑音の定常性を仮定するため非定常雑音の抑圧では性能が劣化する。
【0007】
特許文献3(特開2014-503849公報)に記載の技術では、雑音源の近くに子機マイクを配置し、本マイクの情報を積極的に利用して音声強調を行う技術が開示されている。本技術では、雑音源の位置が特定されており、また子機マイクをその雑音源近くに配置する必要がある。
【0008】
特許文献4(特開2015-095897公報)には、ビデオ信号に対し低ランク成分とスパース成分を抽出することで、背景映像と移動する物体の映像を分離する技術が開示されている。本手法を音声強調へ応用することは可能であるが、一部のマイクが障害物等で音声を十分録音出来なかったときに性能が大きく劣化する。
【0009】
特許文献5(特開2014-058399公報)に記載の技術では、任意の数の音源信号の混合音を観測した多チャネル音響信号から各音源信号を分離抽出する。本技術では、各マイクロホンの位置および音源位置が固定であると仮定されており、これらが動く場合性能が劣化する。
【先行技術文献】
【0010】

【非特許文献1】高田一真,北村大地,中嶋広明,小山翔一,猿渡洋,小野順貴,牧野昭二,"教師あり多チャネル NMF と統計的音声強調を用いた柔軟索状ロボットにおける音源分離,"日本音響学会 2016年春季研究発表会 (2016年3月9日~11日),3-3-2
【非特許文献2】坂東宜昭,糸山克寿, 昆陽雅司,田所諭, 中臺一博, 吉井和佳 及び奥乃博「ロバスト主成分分析を用いた動作雑音抑圧に基づく柔軟索状ロボットのための音声強調」第33回日本ロボット学会学術講演会(2015年9月3日~5日)
【非特許文献3】C. Sun, Q. Zhang, G. Wang, & J. Xie, "Noise reduction based on robust principal component analysis," Journal of Computational Information Systems, vol. 10, no. 10, pp. 4403-4410, 2014
【0011】

【特許文献1】特許第5752324号公報
【特許文献2】特開2009-116275公報
【特許文献3】特開2014-503849公報
【特許文献4】特開2015-095897公報
【特許文献5】特開2014-058399公報
【発明の概要】
【発明が解決しようとする課題】
【0012】
しかしながら、非特許文献1に示された技術では、雑音を抑圧し音声を強調するには事前に雑音の音色情報の収録が不可欠であり、雑音がシステムの使用環境に依存して変化する場合などでは使用が困難だった。
【0013】
また非特許文献2に示された技術では、多チャネル音響信号から雑音の低ランク性と音声のスパース性を用いて目的音声を強調する。本技術では、各チャネルの振幅スペクトログラムに対し個別にロバスト主成分分析を用いて低ランク成分とスパース成分の分離を行い、その後マイクロホンごとのスパース成分について各時間周波数点で中央値を選択して音声を強調していた。本技術では、複数のマイクロホンが中央値で全マイクの信号を統合するため、一部のマイクが障害物等で音声を十分録音出来なかったときに性能が大きく劣化する問題があった。
【0014】
また非特許文献3に示された従来の技術では、実数値行列の解析に特化しており、音響信号の振幅スペクトログラムである非負値行列の解析には不向きで、音響信号処理のための多チャネル拡張や信頼度推定機能の実現が困難だった。
【0015】
従来、多チャネルのマイクロホンにより音声を集音した場合に、一部のマイクロホンが障害物等で音声を十分大きな音量で収録できない場合でも頑健に音声を強調できる技術は提案されていない。例えば、瓦礫の狭い隙間に侵入し被災者を捜索する柔軟索状レスキューロボットでは、自身の動作雑音により被災者の声を聞き取りづらくなる問題があった。
【0016】
本発明の目的は、事前情報を用いずに雑音が含まれる音響信号から目的音響信号を高い精度で復元することができる音声信号復元システム及び方法を提供することにある。
【課題を解決するための手段】
【0017】
本発明は、M本(Mは2以上の整数)のマイクロホンによって採取したMチャネルの音響信号に含まれる目的音響信号を復元する目的音響信号復元システムを対象として、時間周波数解析部と、振幅成分抽出部と、共通スパース成分推定部と、位相復元部と、目的音響信号復元部とを備えている。時間周波数解析部は、M本のマイクロホンによって採取したMチャネルの音響信号を時間周波数解析してMチャネルの複素スペクトログラムを得る。振幅成分抽出部は、Mチャネルの複素スペクトログラムからMチャネルの振幅スペクトログラムを抽出する。共通スパース成分推定部は、Mチャネルの振幅スペクトログラムを入力として、Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース周波数成分を含む共通スパース成分を推定する。ここで「Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラム」の代表的な例としては、M本のマイクロホンのうち例えば2本のマイクロホンが音響信号を殆ど採取していなかったとすると、この2本のマイクロホンからの音響信号から得た2チャネルの振幅スペクトログラムは、「最も多くのチャネルの振幅スペクトログラム」には含まれない。そして残りのM-2本のマイクロホンが採取した音響信号から得たM-2チャネルの音響信号から得たM-2チャネルの振幅スペクトログラムが「最も多くのチャネルの振幅スペクトログラム」になる。位相復元部では、共通スパース成分の位相を復元して目的音響複素スペクトログラムとする。位相は、Mチャネルの振幅スペクトログラム、共通スパース成分等から推定すればよく、位相を求める方法は任意である。そして目的音響信号変換部は、目的音響複素スペクトログラムを時間信号である目的音響信号に変換する。
【0018】
本発明において、共通スパース成分推定部では、「各チャネルの音響信号が低ランク成分とチャネル間共通の共通スパース成分に分解される」と仮定して共通スパース成分を推定し、この共通スパース成分の位相を復元し、且つ復元した目的音響複素スペクトログラムを目的音響信号に変換することにより、雑音抑圧を行う。そして共通スパース成分は、共通スパース成分に含まれている各チャネルのスパース成分の含有比率(本願明細書では、この含有比率を「音量」ということがある。)のみ違うものとモデル化することにより、この含有比率(音量)の推定により目的音響信号を十分に収録できないマイクロホンが存在しても頑強な目的音響信号強調を実現する。
【0019】
具体的に、本発明では、雑音の事前情報無しで雑音の低ランク性と目的音響信号のスパース性から音声強調を行う。本発明においては、Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース周波数成分を含む共通スパース成分を推定するため、低ランク成分の影響を極力受けることなく目的音響信号を復元することができる。その結果、復元の精度を従来よりも高くすることができる。
【0020】
本発明では、非負実数値行列である振幅スペクトログラムの解析に特化しており、マイクロホンの配置などのシステムの使用環境に依存せず、マイクロホンアレイの周囲に障害物が多い環境や、事前に雑音に関する情報を得られない場合でも頑健に動作する目的音響信号強調を実現できる。さらに一部のマイクロホンが障害物等で音声を十分大きな音量で収録できない場合でも頑健に目的音響信号を強調できる。例えば、瓦礫の狭い隙間に侵入し被災者を捜索する柔軟索状レスキューロボットでは、自身の動作雑音により被災者の声を聞き取りづらくなる問題があったが、本発明により瓦礫内でも頑健に音声を強調することができる。
【0021】
共通スパース成分推定部は、Mチャネルの振幅スペクトログラムからそれぞれ反復推定i-1回目の低ランク成分を除いて得たM個のスパース成分を含む残余の総和を、共通スパース成分にM個のスパース成分が含まれている含有比率(音量)の総和で除算して得た結果を反復推定i回目の共通スパース成分として推定する。この含有比率は、変分ベイズEM法や逐次変分ベイズEM法等の反復推定法を用いた反復推定の過程で徐々に収束することになる。
【0022】
反復推定法を用いる場合の共通スパース成分推定部は、Mチャネルの振幅スペクトログラムに含まれる低ランク成分の比率を演算する低ランク成分比率演算部と、低ランク成分の比率に基づいてMチャネルの振幅スペクトログラムに含まれるM本の低ランク成分を演算する低ランク成分演算部と、Mチャネルの振幅スペクトログラムに含まれるスパース成分の比率を演算するスパース成分比率演算部と、スパース成分の比率に基づいてMチャネルの振幅スペクトログラムに含まれるM個のスパース成分を含む残余成分を演算する残余成分演算部と、M個のスパース成分を含む残余成分と共通スパース成分とに基づいて、共通スパース成分にM個のスパース成分が含まれている含有比率をM個のスパース成分の音量として演算する音量演算部と、M個のスパース成分を含む残余成分の総和をM個のスパース成分の音量の総和で除算して共通スパース成分を演算する共通スパース成分演算部とを備える。そして低ランク成分比率演算部、低ランク成分演算部、スパース成分比率演算部、残余成分演算部、音量演算部及び共通スパース成分演算部において反復演算を行うことにより共通スパース成分を推定する。このような構成で、反復推定法を用いると、適宜の反復演算を所定回数繰り返すことにより、高い精度で共通スパース成分を推定することができる。
【0023】
共通スパース成分推定部は、例えば、変分ベイズEM法や逐次変分ベイズEM法により共通スパース成分をベイズ推定するベイズ推定器によって構成することができる。ベイズ推定器を用いると、簡単に共通スパース成分を推定することができる。
【0024】
本発明は、コンピュータを用いて、M本(Mは2以上の整数)のマイクロホンによって採取したMチャネルの音響信号に含まれる目的音響信号を復元する目的音響信号復元方法としても特定することができる。この方法では、M本のマイクロホンによって採取したMチャネルの音響信号を時間周波数解析してMチャネルの複素スペクトログラムを得る時間周波数解析ステップと、Mチャネルの複素スペクトログラムからMチャネルの振幅スペクトログラムを抽出する振幅成分抽出ステップと、Mチャネルの振幅スペクトログラムを入力として、前記Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース時間周波数成分を含む共通スパース成分を推定する共通スパース成分推定ステップと、共通スパース成分の位相を復元して目的音響複素スペクトログラムとする位相復元ステップと、目的音響複素スペクトログラムを時間信号である目的音響信号に変換する目的音響信号変換ステップとがコンピュータで実施される。
【0025】
共通スパース成分推定ステップでは、Mチャネルの振幅スペクトログラムからそれぞれ反復推定i-1回目の低ランク成分を除いて得たM個のスパース成分を含む残余の総和を、共通スパース成分にM個のスパース成分が含まれている含有比率の総和で除算して得た結果を反復推定i回目の共通スパース成分として推定する。
【0026】
共通スパース成分推定ステップは、Mチャネルの振幅スペクトログラムに含まれる低ランク成分の比率を演算する低ランク成分比率演算ステップと、低ランク成分の比率に基づいてMチャネルの振幅スペクトログラムに含まれるM個の低ランク成分を演算する低ランク成分演算ステップと、Mチャネルの振幅スペクトログラムに含まれるスパース成分の比率を演算するスパース成分比率演算ステップと、スパース成分の比率に基づいてMチャネルの振幅スペクトログラムに含まれるM個のスパース成分を含む残余成分を演算する残余成分演算ステップと、M個のスパース成分を含む残余成分と共通スパース成分とに基づいて、共通スパース成分にM個のスパース成分が含まれている含有比率をM個のスパース成分の音量として演算する音量演算ステップと、M個のスパース成分を含む残余成分の総和を前記M個のスパース成分の音量の総和で除算して共通スパース成分を演算する共通スパース成分演算ステップとからなる。そして低ランク成分比率演算ステップ、低ランク成分演算ステップ、スパース成分比率演算ステップ、残余成分演算ステップ、音量演算ステップ及び共通スパース成分演算ステップにおいて反復演算を行うことにより共通スパース成分を推定する。
【0027】
本発明は、M本(Mは2以上の整数)のマイクロホンによって採取したMチャネルの音響信号に含まれる目的音響信号を復元する目的音響信号復元方法を、コンピュータを用いて実現するためにコンピュータ読み取り可能な記憶手段に記憶されたコンピュータプログラムとしても特定することができる。このコンピュータプログラムは、M本のマイクロホンによって採取したMチャネルの音響信号を時間周波数解析してMチャネルの複素スペクトログラムを得る時間周波数解析ステップと、Mチャネルの複素スペクトログラムからMチャネルの振幅スペクトログラムを抽出する振幅成分抽出ステップとMチャネルの振幅スペクトログラムを入力として、Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース時間周波数成分を含む共通スパース成分を推定する共通スパース成分推定ステップと、共通スパース成分の位相を復元して目的音響複素スペクトログラムとする位相復元ステップと、目的音響複素スペクトログラムを時間信号である目的音響信号に変換する目的音響信号変換ステップとをコンピュータで実現する。
【図面の簡単な説明】
【0028】
【図1】本発明の目的音響信号復元システムの実施の形態の一例の構成を示すブロック図である。
【図2】図1の共通スパース成分推定部を、コンピュータを用いて反復推定法により実現する場合に用いるコンピュータプログラムのアルゴリズムを示すフローチャートである。
【図3】マイクロホンアレイを搭載した柔軟索状ロボットの写真である。
【図4】ロボットと音声を再生するスピーカ(音源)の配置条件1と条件2を説明するために用いる図である。
【図5】(A)及び(B)は、条件1と条件2の配置条件及びSNR 条件での音声強調性能を信号対歪比(SDR)で示す図である。
【図6】多チャネルの振幅スペクトログラムの8チャネル中4チャネルを抜粋した図である。
【図7】8チャネル中4チャネルの低ランク成分Lm を抜粋した図である。
【図8】8チャネル中4チャネルの共通スパース成分での音量gm を示した図である。
【図9】共通スパース成分を示す図である。
【図10】MNMF での強調結果を示す図である。
【図11】Med-RPCA での強調結果を示す図である。
【図12】RPCA での強調結果を示す図である。
【図13】共通スパース成分の位相を復元して、目的音響複素スペクトログラムとし、この目的音響複素スペクトログラムを時間信号である目的音響信号に変換した結果を示す図である。
【発明を実施するための形態】
【0029】
以下図面を参照して本発明の実施の形態を詳細に説明する。

【0030】
(実施の形態の構成)
図1は、コンピュータまたは複数のプロセッサと複数のメモリを用いて実現される本発明の目的音響信号復元システムの実施の形態の一例の構成を示すブロック図である。本実施の形態では、具体的に、低ランク性雑音により妨害された音声を観測した多チャネル音響信号から、目的音響信号として音声信号を抽出する。そして各マイクロホンが移動し、一部のマイクロホンが障害物により音声を十分大きな音量で観測出来なくても、頑健に音声信号を抽出することを可能にする。本実施の形態の目的音響信号復元システム1は、M本(Mは2以上の整数)のマイクロホンによって採取したMチャネルの音響信号に含まれる目的音響信号を復元する。

【0031】
本実施の形態の目的音響信号復元システム1は、コンピュータによってそれぞれ実現されるか、1以上のプロセッサと1以上のメモリを用いてそれぞれ実現される、時間周波数解析部3と、振幅成分抽出部5と、共通スパース成分推定部7と、位相復元部9と、位相成分抽出部11と、目的音響信号変換部13とを備えている。時間周波数解析部3は、例えば、非特許文献2「ロバスト主成分分析を用いた動作雑音抑圧に基づく柔軟索状ロボットのための音声強調」に示された柔軟索状ロボットに設けられたM本(Mは2以上の整数)のマイクロホンによって採取したMチャネルの音響信号を時間周波数解析してMチャネルの複素スペクトログラムを得る。振幅成分抽出部5は、Mチャネルの複素スペクトログラムからMチャネルの振幅スペクトログラムを抽出する。共通スパース成分推定部7は、Mチャネルの振幅スペクトログラムを入力として、Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース周波数成分を含む共通スパース成分を推定する。位相復元部9では、共通スパース成分の位相を復元して目的音響複素スペクトログラムとする。本実施の形態では、位相情報を、時間周波数解析部3から位相成分抽出部11により抽出している。なお位相は、Mチャネルの振幅スペクトログラム、共通スパース成分等から推定すればよく、位相を求める方法は任意である。したがって本発明は、位相成分抽出部11を設けることに限定されるものではない。そして目的音響信号変換部13は、目的音響複素スペクトログラムを時間信号である目的音響信号に変換する。

【0032】
本実施の形態では、共通スパース成分推定部7で、反復推定法を用いる。そのため共通スパース成分推定部7は、低ランク成分比率演算部71と、低ランク成分演算部72と、スパース成分比率演算部73と、残余成分演算部74と、音量演算部75と、共通スパース成分演算部76とを備える。低ランク成分比率演算部71は、Mチャネルの振幅スペクトログラムに含まれる低ランク成分の比率を演算する。低ランク成分演算部72は、低ランク成分の比率に基づいてMチャネルの振幅スペクトログラムに含まれるM個の低ランク成分を演算する。スパース成分比率演算部73は、Mチャネルの振幅スペクトログラムに含まれるスパース成分の比率を演算する。そして残余成分演算部74は、スパース成分の比率に基づいてMチャネルの振幅スペクトログラムに含まれるM個のスパース成分を含む残余成分を演算する。音量演算部75は、M個のスパース成分を含む残余成分と共通スパース成分とに基づいて、共通スパース成分にM個のスパース成分が含まれている含有比率をM個のスパース成分の音量として演算する。この含有比率は、例えば、変分ベイズEM法や逐次変分ベイズEM法等の反復推定法を用いる際に、反復推定の過程で求める。共通スパース成分演算部76は、Mチャネルの振幅スペクトログラムからそれぞれ反復推定i-1回目の低ランク成分を除いて得たM個のスパース成分を含む残余の総和を、共通スパース成分にM個のスパース成分が含まれている含有比率の総和で除算して得た結果を反復推定i回目の共通スパース成分として演算する。

【0033】
そして低ランク成分比率演算部71、低ランク成分演算部72、スパース成分比率演算部73、残余成分演算部74、音量演算部75及び共通スパース成分演算部76において反復演算を行うことにより共通スパース成分を推定する。

【0034】
本実施の形態では、共通スパース成分推定部7では、「各チャネルの音響信号が低ランク成分とチャネル間共通の共通スパース成分に分解される」と仮定して共通スパース成分を推定し、この共通スパース成分の位相を位相復元部9で復元し、復元した目的音響複素スペクトログラムを目的音響信号変換部13で変換することにより、雑音抑圧を行う。本実施の形態では、共通スパース成分は、共通スパース成分に含まれている各チャネルのスパース成分の含有比率(音量)のみ違うものとモデル化することにより、この含有比率(音量)の推定により目的音響信号(音声等)を十分に収録できないマイクロホンが存在しても頑強な音声強調を実現する。

【0035】
具体的に、本発明では、雑音の事前情報無しで雑音の低ランク性と目的音響信号(音声等)のスパース性から目的音響信号(音声等)強調を行う。本発明においては、Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース周波数成分を含む共通スパース成分を推定するため、低ランク成分の影響を極力受けることなく目的音響信号を復元することができる。その結果、復元の精度を従来よりも高くすることができる。

【0036】
本実施の形態では、非負実数値行列の解析に特化しており、雑音信号の音色情報を事前に収録しなくても、雑音の低ランク性と音声等の目的音響信号のスパース性から頑健に目的音響信号強調を実現できる。本特徴により、マイクロホンアレイの周囲に障害物が多い環境や、事前に雑音に関する情報を得られない場合でも頑健に動作する目的音響信号(音声等)強調を実現できる。さらに一部のマイクロホンが障害物等で音声を十分大きな音量で収録できない場合でも頑健に目的音響信号(音声等)を強調できる。

【0037】
(生成モデルの説明)
本実施の形態で採用する生成モデルについて説明する。なお以下の説明では便宜上目的音響信号を音声信号ということがある。この生成モデルで扱う音声強調の問題は以下で定義される。

【0038】
入力:Mチャネルの振幅スペクトログラム

【0039】
【数1】
JP2017204226A1_000003t.gif
出力:目的音声の振幅スペクトログラム

【0040】
【数2】
JP2017204226A1_000004t.gif
ここで、

【0041】
【数3】
JP2017204226A1_000005t.gif
は非負実数値を表す。また、FおよびTはそれぞれ周波数ビン数、時間フレーム数を表す。以下の説明では、チャネルの振幅スペクトログラムのことを音響信号と呼び、fおよびtを周波数ビン、時間フレームのインデックスとする。

【0042】
本実施の形態では、音声信号S = [s1,・・・,sT ]とそのマイクロホンでの観測Y´m=[y´m1,・・・,y´mT ]の関係は、周波数非依存時変線形変換であると仮定する。

【0043】
【数4】
JP2017204226A1_000006t.gif
ここで、

【0044】
【数5】
JP2017204226A1_000007t.gif
は本線形変換の係数(各マイクロホンでの音声の音量:各マイクロホンにおけるスパース成分の含有比率) を表す。本音声伝達モデルを用いて、マイクロホンの観測ymt は以下のように分解されると仮定する。

【0045】
【数6】
JP2017204226A1_000008t.gif
ここで、Lm = [lm1,・・・,lmT ]およびS =[s1,・・・,sT]はそれぞれ各マイクロホンに混入した低ランク雑音と、音声を表すスパース成分を表す。本低ランク成分は更にK個の基低Wm = [wm1,・・・,wmK](基低行列) および、各基低の各時刻での音量Hm = [hm1,・・・,hmT ] (アクティベーション行列) の積で表現する。

【0046】
【数7】
JP2017204226A1_000009t.gif
以降では、各チャネルの低ランク成分の低ランクらしさ及び、共通スパース成分のスパースらしさをモデル化するためのベイズ生成モデルについて説明する。

【0047】
(尤度モデル)
本モデルでは入力振幅スペクトログラムの近似誤差をKullback-Leibler (KL) 擬距離を用いて評価する。ベイズ生成モデルではKL 擬距離の最小化は、Poisson 分布尤度の最大化に対応するので、本モデルでは尤度モデルを以下のように定義する。

【0048】
【数8】
JP2017204226A1_000010t.gif
ここで、P(x|k) はパラメータ

【0049】
【数9】
JP2017204226A1_000011t.gif
を持つPoisson 分布を表す。(4)式において、YmはMチャネルの振幅スペクトログラムのm番目の振幅スペクトログラム,Hmは各基底の各時刻での音量、WmはK個の基底、Sは共通スパース成分、Gmはスパース成分の各マイクロホンにおける含有比率である。sft,gmt,wmfk,hmkt はそれぞれ、S、Gm、Wm、Hmの要素を表し,ymft は,観測の複素スペクトログラムを表す。

【0050】
(低ランク成分の事前分布)
低ランク成分の基底行列とアクティベーション行列の事前分布は、Poisson 分布の共役事前分布であるGamma 分布を用いて定式化する。

【0051】
【数10】
JP2017204226A1_000012t.gif
ここで、G(x|α,β) はshapeパラメータα およびrate パラメータβを持つガンマ分布を表す。また、

【0052】
【数11】
JP2017204226A1_000013t.gif
および

【0053】
【数12】
JP2017204226A1_000014t.gif
は基底とアクティベーションの超パラメータを表す。本モデルでは、shape パラメータを1以下に設定することで基底とアクティベーション行列をスパースに制限でき、これによって低ランク成分Lは低ランク行列に制限される。

【0054】
(スパース成分の事前分布)
従来法の一つであるBayesian RPCA の生成モデルでは、スパース成分の表現にGaussian 事前分布を置き、その精度パラメータにJeffreys 超事前分布を置くことでスパース成分を表現していた。本実施の形態では、非負値行列である振幅スペクトログラムを表現するためにスパース成分の事前分布にはGamma 分布を置き、Gauss 分布における精度パラメータに対応するGamma 分布のrate パラメータにJeffreys 超事前分布を置くことでスパース成分をモデル化する。

【0055】
【数13】
JP2017204226A1_000015t.gif
ここで、

【0056】
【数14】
JP2017204226A1_000016t.gif
はガンマ分布の超パラメータを表す。提案モデルでは、スパース成分のスパース度をこの超パラメータの値で調節する。

【0057】
(音量変数の事前分布)
各マイクロホンのスパース成分の音量(含有比率)gmtには、Poisson 分布の共役事前分布であるGamma 分布を置く。

【0058】
【数15】
JP2017204226A1_000017t.gif
ここで、αg は各マイクロホンでのスパース成分の音量のばらつきを調整する超パラメータである。

【0059】
(変分ベイズEM 法によるベイズ推論)
入力多チャネル振幅スペクトログラムが得られたときの本モデルの事後分布を解析的に導出することは困難なので、変分ベイズEM 法により近似推論を行う。以下では

【0060】
【数16】
JP2017204226A1_000018t.gif
を全てのパラメータの集合を表し、q(・)を変分事後分布とする。変分近似では事後分布を以下のように分解近似し、真の事後分布とのKL 擬距離を最小化することで推論を行う。

【0061】
【数17】
JP2017204226A1_000019t.gif
本実施の形態のモデルでは、共役指数分布族上でモデル化されているため、各更新則はJensen の不等式とLagrange 未定乗数法を用いることで容易に導出できる。〈・〉 を確率変数の平均とするとき、各辺分事後分布は以下の更新則を他のパラメータを固定して反復更新することで得られる。

【0062】
【数18】
JP2017204226A1_000020t.gif
ここで、s´mft は低ランク成分の残余を表し、

【0063】
【数19】
JP2017204226A1_000021t.gif
および

【0064】
【数20】
JP2017204226A1_000022t.gif
はそれぞれ低ランク成分が含まれている比率及びスパース成分が含まれている比率を表す。

【0065】
図2には、図1の共通スパース成分推定部7をコンピュータを用いて反復推定法により実現する場合に用いるコンピュータプログラムのアルゴリズムを示すフローチャートを示してある。図2には、上記(11)式~(18)式までが使用されるステップに、各式の表示を付してある。反復推定の終了条件は、200回繰り返し、または各推定値のデータYm,Hm、Wm、S、βs,gmについて、前回処理時との比較を行い、比較結果が近似になったら終了するものとした。なお図2においても、YmはMチャネルの振幅スペクトログラムのm番目の振幅スペクトログラム,Hmは各基底の各時刻での音量、WmはK個の基底、Sは共通スパース成分、βsはベイズ推定の係数,gmはスパース成分の含有比率である。

【0066】
共通スパース成分演算部76で行う、Mチャネルの振幅スペクトログラムからそれぞれ反復推定i-1回目の低ランク成分を除いて得たM個のスパース成分を含む残余の総和の演算は、式(13)で更新される変分事後分布の平均を計算する上で、式(13)中の「,」の前の式を用いて実施される。そして残余の総和を、共通スパース成分にM個のスパース成分が含まれている含有比率(音量)の総和で除算する演算は、式(13)で得られる変分事後分布の平均を計算するときに実施される。この結果を、反復推定i回目の共通スパース成分として推定する。含有比率の総和[式(13)中のΣ(gmt)]は、変分ベイズEM法等の反復推定法を用いる際に、反復推定の過程で徐々に収束することになる。式(13)中のβsftはベイズ推定の係数である。

【0067】
図2の場合、終了条件が成立したら位相復元器9に、共通スパース成分Sが与えられ、位相復元器9は式(19)で目的音響スペクトログラムs´ft(出力)を計算する。

【0068】
【数21】
JP2017204226A1_000023t.gif
なお上記式において、sft はそれぞれ、Sの要素を表し,y′mft は,観測の複素スペクトログラムの要素を表す。

【0069】
また位相復元部9は、共通スパース成分Sの他に、各基底の各時刻での音量Hm、K個の基底Wm、スパース成分の含有比率gmを含めて目的音響スペクトログラムs´ft(出力)を復元してもよい。この場合、位相復元部9は式(20)で目的音響スペクトログラムSftを計算する。

【0070】
【数22】
JP2017204226A1_000024t.gif
なお上記式において、sft,gmt,wmfk,hmkt はそれぞれ、S、gm、Wm、Hmの要素を表し,y′mft は,観測の複素スペクトログラムの要素を表す。

【0071】
[評価実験]
駆動機構とマイクロホンアレイを有する柔軟索状ロボットの動作雑音を用いて本実施の形態の音声強調性能を評価した。

【0072】
(使用した柔軟索状ロボット)
図3に、マイクロホンアレイを搭載した柔軟索状ロボットの写真を示す。本体は、直径38mmのコルゲートチューブからなり、全長3mである。8本のマイクロホンアレイ(M=8) をロボット表面に40cm間隔で90度ずつ回転して装着した。両端のマイクロホン間の距離は2.8mである。マイクロホンは手元から順番にインデックスmで区別する(m = 1,・・・,M)。本ロボットは、Namari らのTube-type Active Scope Camera [J. Fukuda, et al. Remote vertical exploration by active scope camera into collapsed buildings. In IEEE/RSJ IROS, pp. 1882-1888, 2014.] と同様、繊毛と振動モータを用いた駆動で前進する。振動モータはロボット内に40cm間隔で7個直列に装着されている。

【0073】
(実験設定)
(録音条件)
柔軟索状ロボットを用いて音声と動作雑音を個別に録音し、SNRを-20dB から+5dB まで5dB 分ずつ変化させて混合し、音声の強調性能を評価した。図4に示すように、ロボットと音声を再生するスピーカ(音源)の配置条件を条件1と条件2のように定めた。

【0074】
条件1:ロボットは自由空間に配置され、音源はロボットの正面に配置されている。部屋の残響時間(RT60) は750 ms だった。

【0075】
条件2:ロボットはドアの隙間に配置され、音源はロボットの正面に配置されている。4つのマイクロホンがドアにより音源から遮られている。残響時間(RT60)は990 ms だった。

【0076】
ロボットを駆動させ、手と振動モータを使って左右にロボット振りながら、60 秒の動作雑音を録音した。目的音である音声は、ノイズを軽減するために、ロボットが静止時のインパルス応答に60 秒の録音音声を畳み込んで作成した。録音音声は男声2種、女声2種の計4種(240 秒) を用いた。これらの録音は8ch同期、24 bit 量子化、16 kHz サンプリングで行った。

【0077】
(比較手法)
実験では、本実施の形態の実施例と、Multi-channel non-negative matrix factorization (MNMF) [D. Kitamura, et al. Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model. In IEEE ICASSP, pp. 276-280, 2015. ]及びrobust principal component analysis (RPCA) [C. Sun, et al. Noise reduction based on robust principal component analysis. JCIS, Vol. 10, No. 10, pp.4403-4410, 2014.2] による比較例とを比較した。RPCAは先端のマイクの結果を使用した。更に、全マイクのRPCA の結果を中央値で統合した結果(Med-RPCA) とも比較した。本実施の形態の実施例では、従来法[坂東宜昭ほか.ロバスト主成分分析を用いた動作雑音抑圧に基づく柔軟索状ロボットのための音声強調. In RSJ2015] のオフライン実装となっている。

【0078】
(評価尺度)
評価尺度には、信号対歪比(SDR) を用いた。信号対歪比(SDR)は総合的な分離精度を表す。

【0079】
(実験結果)
図5には、条件1と条件2の配置条件及びSNR 条件での音声強調性能を信号対歪比(SDR)で示してある。各配置・SNR 条件での音声強調性能をSDR で示した場合、SDR が高いほど、音声強調性能が良いことを表す。すなわちSNRが高いほど音声が多く含まれていることを意味する。条件では、SNR が0 dB 以下のとき、条件2ではSNR が-15 dB 以上で0 dB 以下のときに本実施の形態(提案法)の実施例では性能が最も高い。これに対して、条件1及び条件2のいずれにおいても、2番目に性能が高いMed-RPCA の比較例では、一部のマイクロホンが隠れている条件2では性能が大きく劣化している。一方、条件2で3番目に性能が高いRPCA は条件2では、Med-RPCA や提案法より性能が低い。これらに比べて、本実施の形態の実施例(提案法)は両方の条件で高い性能を示しており、環境への依存性が低いことがわかる。

【0080】
図6乃至図13には、本実施の形態の実施例(提案法)による音声強調結果および、従来法による強調結果を波形で示す。これらの波形をみれば、本実施の形態の実施例が、最も雑音を抑圧し、音声を強調できていることがわかる。図6は、多チャネルの振幅スペクトログラムYm(m = 1,・・・,8)の8チャネル中4チャネルを抜粋したものである。図7は、8チャネル中4チャネルの低ランク成分Lm を抜粋したものである。図8は、 8チャネル中4チャネルの共通スパース成分での音量gm を示したものである。図9は、 共通スパース成分を示したものである。そして図10は、MNMF での強調結果を示しており、図11はMed-RPCA での強調結果を示しており、図12はRPCA での強調結果を示している。そして図13は、共通スパース成分の位相を復元して、目的音響複素スペクトログラムとし、この目的音響複素スペクトログラムを時間信号である目的音響信号に変換した結果を示している。
【産業上の利用可能性】
【0081】
本発明では、雑音の事前情報無しで雑音の低ランク性と目的音響信号のスパース性から音声強調を行うため、Mチャネルの振幅スペクトログラムのうち最も多くのチャネルの振幅スペクトログラムに共通に含まれている可能性が高いスパース周波数成分を含む共通スパース成分を推定する。そして共通スパース成分の位相を復元し、且つ復元した目的音響複素スペクトログラムを目的音響信号に変換することにより、雑音抑圧を行う、そのため低ランク成分の影響を極力受けることなく目的音響信号を復元することができ、復元の精度を従来よりも高くすることができる。
【符号の説明】
【0082】
1 目的音響信号復元システム
3 時間周波数解析部
5 振幅成分抽出部
7 共通スパース成分推定部
9 位相復元部
11 位相成分抽出部
13 目的音響信号変換部
71 低ランク成分比率演算部
72 低ランク成分演算部
73 スパース成分比率演算部
74 残余成分演算部
75 音量演算部
76 共通スパース成分演算部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12