TOP > 国内特許検索 > 歌声信号分離方法及びシステム

歌声信号分離方法及びシステム UPDATE

国内特許コード P150011876
整理番号 4830
掲載日 2015年4月15日
出願番号 特願2015-034339
公開番号 特開2016-156938
出願日 平成27年2月24日(2015.2.24)
公開日 平成28年9月1日(2016.9.1)
発明者
  • 池宮 由楽
  • 吉井 和佳
  • 糸山 克寿
出願人
  • 国立大学法人京都大学
発明の名称 歌声信号分離方法及びシステム UPDATE
発明の概要 【課題】歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する精度を従来よりも改善することができる歌声信号分離方法及びシステムを提供することにある。
【解決手段】調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを準備する。次にこの時間周波数マスクを音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成する。そして分離用歌声スペクトログラムに基づいて歌声信号を分離生成する。
【選択図】図1
従来技術、競合技術の概要


非特許文献1[Combining Modeling of Singing Voice and Background Music for Automatic Separation of Musical Mixtures, ISMIR (2013)]には、歌声と伴奏を分離する従来の技術の一例が開示されている。



例えば、非特許文献2[Mixture of Gaussian Process Experts for Predicting Sung Melodic Contour with Expressive Dynamic Fluctuations, ICASSP (2014)]は、歌声のF0軌跡を不連続な楽譜成分と微細な変動成分の重ね合わせとして表現する確率モデルを用いて、任意の楽譜から歌声のF0軌跡を生成する手法を提案している。同様のモデルは、非特許文献3[混合ガウス過程に基づく歌声音量軌跡の生成過程モデル,情処研報 (2013)]において、歌声の音量軌跡に対しても適用されている。

産業上の利用分野


本発明は、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する歌声信号分離方法及びシステムに関するものである。

特許請求の範囲 【請求項1】
歌声信号と伴奏音信号とを含む音楽音響信号から前記歌声信号を分離する歌声信号分離方法であって、
前記音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する変換ステップと、
調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを前記音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを準備するマスク準備ステップと、
前記時間周波数マスクを前記音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成するマスキングステップと、
前記分離用歌声スペクトログラムに基づいて前記歌声信号を分離生成する分離生成ステップとからなることを特徴とする歌声信号分離方法。

【請求項2】
前記マスク準備ステップでは、
前記音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し、
前記低ランク行列と前記スパース行列の比較に基づいて、前記音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成し、
第1のタイプの時間周波数マスクを前記音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離し、
分離された前記歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定し、
前記歌声基本周波数F0軌跡に基づいて、前記歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成し、
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとを統合して、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを前記時間周波数マスクとして準備することを特徴とする請求項1に記載の歌声信号分離方法。

【請求項3】
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとの統合とは、前記第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの第2の時間周波数マスクの選択領域との論理積をとることである請求項2に記載の歌声信号分離方法。

【請求項4】
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとの統合とは、前記第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、前記仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にすることにより前記第3のタイプの時間周波数マスクとすることである請求項1に記載の歌声信号分離方法。

【請求項5】
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとの統合とは、前記第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、前記仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にし、且つ前記第1のタイプの時間周波数マスクから子音を通過させる要素を得て該要素を前記仮統合時間周波数マスクに反映することである請求項1に記載の歌声信号分離方法。

【請求項6】
前記第1のタイプの時間周波数マスク、前記第2のタイプの時間周波数マスク及び第3のタイプの時間周波数マスクは、それぞれバイナリマスクである請求項3,4または5に記載の歌声信号分離方法。

【請求項7】
前記分離生成ステップでは、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成することを特徴とする請求項1に記載の歌声信号分離方法。

【請求項8】
前記各ステップを1以上のプロセッサで実施することを特徴とする請求項1乃至7に記載の歌声信号分離方法。

【請求項9】
歌声信号と伴奏音信号とを含む音楽音響信号から前記歌声信号を分離する歌声信号分離システムであって、
前記音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する時間周波数解析部と、
調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを前記音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを用いて、前記時間周波数マスクを前記音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成するマスキング部と、
前記分離用歌声スペクトログラムに基づいて前記歌声信号を分離生成する信号分離生成部とからなることを特徴とする歌声信号分離システム。

【請求項10】
前記音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し、前記低ランク行列と前記スパース行列の比較に基づいて、前記音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成する第1のタイプの時間周波数マスク生成部と、
前記第1のタイプの時間周波数マスクを記憶する第1のタイプの時間周波数マスク記憶部と、
前記第1のタイプの時間周波数マスクを前記音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離する歌声スペクトログラム分離部と、
分離された前記歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定するF0軌跡推定部と、
前記歌声基本周波数F0軌跡に基づいて作成されて、前記歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成する第2のタイプの時間周波数マスク生成部と、
前記第2のタイプの時間周波数マスクを記憶する第2のタイプの時間周波数マスク記憶部と、
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとを統合して作成された、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを前記時間周波数マスクとして統合するマスク統合部とからなるマスク生成システムによって、前記時間周波数マスクが生成されたものである請求項9に記載の歌語信号分離システム。

【請求項11】
前記第1のタイプの時間周波数マスク、前記第2のタイプの時間周波数マスク及び第3のタイプの時間周波数マスクは、それぞれバイナリマスクである請求項10に記載の歌声信号分離システム。

【請求項12】
前記信号分離生成部は、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成することを特徴とする請求項9に記載の歌声信号分離システム。

【請求項13】
上記構成要件は、1以上のプロセッサとメモリによって実現されている請求項9乃至12のいずれか1項に記載の歌声信号分離システム。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2015034339thum.jpg
出願権利状態 公開
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close