TOP > 国内特許検索 > 歌声信号分離方法及びシステム > 明細書

明細書 :歌声信号分離方法及びシステム

発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2016-156938 (P2016-156938A)
公開日 平成28年9月1日(2016.9.1)
発明の名称または考案の名称 歌声信号分離方法及びシステム
国際特許分類 G10L  21/028       (2013.01)
G10L  21/0272      (2013.01)
G10L  21/0308      (2013.01)
FI G10L 21/028 B
G10L 21/0272 100Z
G10L 21/0308 Z
請求項の数または発明の数 13
出願形態 OL
全頁数 17
出願番号 特願2015-034339 (P2015-034339)
出願日 平成27年2月24日(2015.2.24)
新規性喪失の例外の表示 申請有り
発明者または考案者 【氏名】池宮 由楽
【氏名】吉井 和佳
【氏名】糸山 克寿
出願人 【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
個別代理人の代理人 【識別番号】100091443、【弁理士】、【氏名又は名称】西浦 ▲嗣▼晴
審査請求 未請求
要約 【課題】歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する精度を従来よりも改善することができる歌声信号分離方法及びシステムを提供することにある。
【解決手段】調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを準備する。次にこの時間周波数マスクを音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成する。そして分離用歌声スペクトログラムに基づいて歌声信号を分離生成する。
【選択図】図1
特許請求の範囲 【請求項1】
歌声信号と伴奏音信号とを含む音楽音響信号から前記歌声信号を分離する歌声信号分離方法であって、
前記音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する変換ステップと、
調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを前記音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを準備するマスク準備ステップと、
前記時間周波数マスクを前記音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成するマスキングステップと、
前記分離用歌声スペクトログラムに基づいて前記歌声信号を分離生成する分離生成ステップとからなることを特徴とする歌声信号分離方法。
【請求項2】
前記マスク準備ステップでは、
前記音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し、
前記低ランク行列と前記スパース行列の比較に基づいて、前記音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成し、
第1のタイプの時間周波数マスクを前記音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離し、
分離された前記歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定し、
前記歌声基本周波数F0軌跡に基づいて、前記歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成し、
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとを統合して、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを前記時間周波数マスクとして準備することを特徴とする請求項1に記載の歌声信号分離方法。
【請求項3】
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとの統合とは、前記第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの第2の時間周波数マスクの選択領域との論理積をとることである請求項2に記載の歌声信号分離方法。
【請求項4】
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとの統合とは、前記第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、前記仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にすることにより前記第3のタイプの時間周波数マスクとすることである請求項1に記載の歌声信号分離方法。
【請求項5】
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとの統合とは、前記第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、前記仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にし、且つ前記第1のタイプの時間周波数マスクから子音を通過させる要素を得て該要素を前記仮統合時間周波数マスクに反映することである請求項1に記載の歌声信号分離方法。
【請求項6】
前記第1のタイプの時間周波数マスク、前記第2のタイプの時間周波数マスク及び第3のタイプの時間周波数マスクは、それぞれバイナリマスクである請求項3,4または5に記載の歌声信号分離方法。
【請求項7】
前記分離生成ステップでは、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成することを特徴とする請求項1に記載の歌声信号分離方法。
【請求項8】
前記各ステップを1以上のプロセッサで実施することを特徴とする請求項1乃至7に記載の歌声信号分離方法。
【請求項9】
歌声信号と伴奏音信号とを含む音楽音響信号から前記歌声信号を分離する歌声信号分離システムであって、
前記音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する時間周波数解析部と、
調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを前記音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを用いて、前記時間周波数マスクを前記音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成するマスキング部と、
前記分離用歌声スペクトログラムに基づいて前記歌声信号を分離生成する信号分離生成部とからなることを特徴とする歌声信号分離システム。
【請求項10】
前記音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し、前記低ランク行列と前記スパース行列の比較に基づいて、前記音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成する第1のタイプの時間周波数マスク生成部と、
前記第1のタイプの時間周波数マスクを記憶する第1のタイプの時間周波数マスク記憶部と、
前記第1のタイプの時間周波数マスクを前記音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離する歌声スペクトログラム分離部と、
分離された前記歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定するF0軌跡推定部と、
前記歌声基本周波数F0軌跡に基づいて作成されて、前記歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成する第2のタイプの時間周波数マスク生成部と、
前記第2のタイプの時間周波数マスクを記憶する第2のタイプの時間周波数マスク記憶部と、
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとを統合して作成された、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを前記時間周波数マスクとして統合するマスク統合部とからなるマスク生成システムによって、前記時間周波数マスクが生成されたものである請求項9に記載の歌語信号分離システム。
【請求項11】
前記第1のタイプの時間周波数マスク、前記第2のタイプの時間周波数マスク及び第3のタイプの時間周波数マスクは、それぞれバイナリマスクである請求項10に記載の歌声信号分離システム。
【請求項12】
前記信号分離生成部は、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成することを特徴とする請求項9に記載の歌声信号分離システム。
【請求項13】
上記構成要件は、1以上のプロセッサとメモリによって実現されている請求項9乃至12のいずれか1項に記載の歌声信号分離システム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する歌声信号分離方法及びシステムに関するものである。
【背景技術】
【0002】
非特許文献1[Combining Modeling of Singing Voice and Background Music for Automatic Separation of Musical Mixtures, ISMIR (2013)]には、歌声と伴奏を分離する従来の技術の一例が開示されている。
【0003】
例えば、非特許文献2[Mixture of Gaussian Process Experts for Predicting Sung Melodic Contour with Expressive Dynamic Fluctuations, ICASSP (2014)]は、歌声のF0軌跡を不連続な楽譜成分と微細な変動成分の重ね合わせとして表現する確率モデルを用いて、任意の楽譜から歌声のF0軌跡を生成する手法を提案している。同様のモデルは、非特許文献3[混合ガウス過程に基づく歌声音量軌跡の生成過程モデル,情処研報 (2013)]において、歌声の音量軌跡に対しても適用されている。
【先行技術文献】
【0004】

【非特許文献1】Rafii, Z., Germain, F. G., Sun, D. L., and Mysore, G. J.: Combining Modeling of Singing Voice and Background Music for Automatic Separation of Musical Mixtures, ISMIR (2013)
【非特許文献2】Ohishi, Y., Mochihashi, D., Kameoka, H., and Kashino,K.: Mixture of Gaussian Process Experts for Predicting Sung Melodic Contour with Expressive Dynamic Fluctuations, ICASSP (2014)
【非特許文献3】大石康智,持橋大地,亀岡弘和,柏野邦夫:混合ガウス過程に基づく歌声音量軌跡の生成過程モデル,情処研報 (2013)
【発明の概要】
【発明が解決しようとする課題】
【0005】
混合音中の歌声に対する編集システムを実現するには、高精度な歌声・伴奏音分離と歌声のF0推定が必要である。しかしながら従来の技術では、両タスクの相互依存性を考慮して、精度を一挙に改善することができるものはなかった。
【0006】
本発明の目的は、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する精度を従来よりも改善することができる歌声信号分離方法及びシステムを提供することにある。
【0007】
本発明の他の目的は、高精度な歌声・伴奏音分離と歌声のF0推定の相互依存性を考慮して、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する精度を一挙に改善することができる歌声信号分離方法及びシステムを提供することにある。
【課題を解決するための手段】
【0008】
本発明は、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する歌声信号分離方法及びシステムを改良の対象とする。本発明の方法では、まず音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する(変換ステップ)。また調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを準備する(マスク準備ステップ)。
【0009】
次にこの時間周波数マスクを音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成する(マスキングステップ)。そして分離用歌声スペクトログラムに基づいて歌声信号を分離生成する(分離生成ステップ)。上記のような時間周波数マスクを用いると、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を従来よりも精度よく分離することができる。
【0010】
マスク準備ステップでは、具体的には、次のようにして時間周波数マスクを準備する。まず音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解する。次に低ランク行列とスパース行列の比較に基づいて、音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成する。次に第1のタイプの時間周波数マスクを音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離する。そして分離された歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定する。次に歌声基本周波数F0軌跡に基づいて、歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成する。ここで「歌声基本周波数F0と倍音周辺」とは、歌声基本周波数F0のピークとその倍音のピークを中心として、予め定めた周波数幅に入る周波数である。この周波数幅は、歌声基本周波数F0とその倍音のスペクトルの形状から自動的に定めることもできる。
【0011】
最後に、第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとを統合して、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを時間周波数マスクとして準備する。この具体的方法では、基本的にはロバスト主成分分析(Robust Principal Component Analysis; RPCA)を用いてスペクトログラム上で歌声・伴奏音分離を行う。歌声のF0情報を用いれば、不要な伴奏音を抑制することができる。一方、混合音に対して歌声のF0推定を行うよりも、分離した歌声に対してF0推定を行う方がずっと容易である。
【0012】
第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとの統合とは、両マスクの機能を優れた機能を併用可能にすることを意味し、例えば、第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとの統合とは、第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの第2の時間周波数マスクの選択領域との論理積をとることにより両マスクを統合することができる。
【0013】
また統合の他の例では、第1のタイプの時間周波数マスクの選択領域と第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にすることにより第3のタイプの時間周波数マスクとすることができる。この時間周波数マスクでは、歌が無い区間を推定して、推定された時間フレームの全要素を0にするため、さらに分離精度を高めることができる。
【0014】
さらに統合の他の例では、第1のタイプの時間周波数マスクの選択領域と第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にし、且つ第1のタイプの時間周波数マスクから子音を通過させる要素を得て該要素を仮統合時間周波数マスクに反映する。このようにするとさらに分離精度を高めることができる。
【0015】
なお第1のタイプの時間周波数マスク、第2のタイプの時間周波数マスク及び第3のタイプの時間周波数マスクは、それぞれバイナリマスクであるのが好ましい。バイナリマスクを用いると、1と0の組み合わせによりマスクが構成されるため、歌声と伴奏がくっきり分かれ、伴奏音側に歌声が残る可能性はほとんどなくなる。
【0016】
分離生成ステップでは、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成することができる。そして各ステップは、1以上のプロセッサで実施することができる。
【0017】
本発明の方法を実施する本発明の歌声信号分離システムは、時間周波数解析部と、マスキング部と、信号分離生成部とから構成される。
【0018】
時間周波数解析部は、音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する。マスキング部は、調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを用いて、時間周波数マスクを音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成する。そして信号分離生成部は、分離用歌声スペクトログラムに基づいて歌声信号を分離生成する。
【0019】
時間周波数マスクはマスク生成システムによって生成される。マスク生成システムは、第1のタイプの時間周波数マスク生成部と、第1のタイプの時間周波数マスク記憶部と、歌声スペクトログラム分離部と、F0軌跡推定部と、第2のタイプの時間周波数マスク生成部と、第2のタイプの時間周波数マスク記憶部と、マスク統合部とから構成される。
【0020】
第1のタイプの時間周波数マスク生成部は、音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し、低ランク行列とスパース行列の比較に基づいて、音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成する。第1のタイプの時間周波数マスク記憶部は、第1のタイプの時間周波数マスクを記憶する。歌声スペクトログラム分離部は、第1のタイプの時間周波数マスクを音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離する。F0軌跡推定部は、分離された歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定する。第2のタイプの時間周波数マスク生成部は、歌声基本周波数F0軌跡に基づいて、歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成する。第2のタイプの時間周波数マスク記憶部は、第2のタイプの時間周波数マスクを記憶する。マスク統合部は、第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとに基づき、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを時間周波数マスクとして統合する。
【0021】
信号分離生成部は、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成する。なお上記構成要件は、1以上のプロセッサとメモリによって実現するのが好ましい。
【図面の簡単な説明】
【0022】
【図1】本発明の歌声信号分離方法を実施する歌声信号分離システムの一例の構成を示すブロック図である。
【図2】図1の実施の形態の歌声信号分離システムをコンピュータ(1以上のプロセッサと1以上のメモリを含む)で実施する際に使用されるソフトウエアのアルゴリズムを示すフローチャートである。
【図3】入力音楽音曲信号を時間周波数解析して得る音楽スペクトログラムの一例を示す図である。
【図4】音楽スペクトログラムからロバスト主成分分析によりスパース行列と低ランク行列とに分析した結果の一例と、両行列の各要素の値を比較して得た第1のタイプの時間周波数分析マスクとしてバイナリマスクの例を示す図である。
【図5】図4の表示内容の理解を高めるために、音楽スペクトログラムの一部を拡大し、またスパース行列と低ランク行列の一部を拡大し、さらに第1のタイプの時間周波数分析マスクとしてバイナリマスクの一部を拡大した図を示している。
【図6】F0軌跡推定部によって推定された歌声基本周波数F0軌跡から前記第2のタイプの時間周波数マスク(バイナリマスク)を生成する過程の一例を示す図である。
【図7】第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)と第2のタイプの時間周波数マスク(歌声基本周波数F0による調波構造のバイナリマスク)を統合する場合の一例を画像で示す図である。
【図8】図7の画像の理解を高めるために、図7に示した複数の画像の一部をそれぞれ拡大して示す図である。
【図9】マスキング部における処理を画像で示すための図である。
【図10】図9の画像の理解を高めるために、図9に示した複数の画像の一部をそれぞれ拡大して示す図である。
【図11】(A)乃至(D)は、マスキング部によるマスキング処理の状況を示す波形図である。
【図12】歌声信号の再合成を説明するために用いる図である。
【図13】マスクの統合の他の例を示す概念図である。
【図14】マスクの統合のさらに他の例を示す概念図である。
【発明を実施するための形態】
【0023】
以下図面を参照して、本発明の歌声信号分離方法及びシステムの実施の形態の一例を詳細に説明する。図1は、本発明の歌声信号分離方法を実施する歌声信号分離システムの一例の構成を示すブロック図である。図2は、図1の実施の形態の歌声信号分離システムをコンピュータ(1以上のプロセッサと1以上のメモリを含む)で実施する際に使用されるソフトウエアのアルゴリズムを示すフローチャートである。

【0024】
本発明の方法を実施する本発明の歌声信号分離システムは、時間周波数解析部2と、音楽スペクトログラム記憶部3と、第3のタイプの時間周波数マスク記憶部4と、マスキング部5と、信号分離生成部6とから構成される。図1には、第3のタイプの時間周波数マスク記憶部4に記憶する時間周波数マスクを生成するためのマスク生成システム7も併せて記載してある。説明の都合上、本実施の形態の説明の途中でマスク生成システム7についても説明する。

【0025】
時間周波数解析部2は、歌声信号と伴奏音信号とを含む音楽音響信号1を、時間周波数解析を行って音楽スペクトログラム(行列)に変換する(ステップST1)。まず、短時間フーリエ変換(Short-Term Fourier Transform; STFT)あるいは定Q変換を用いて入力音楽音響信号の時間周波数解析を行う。定Q変換については、「Schorkhuber, C. and Klapuri, A.: Constant-Q Transform Toolbox for Music Processing, SMC Conference (2010)」に詳しく記載されている。

【0026】
実用上、全時間サンプルnにおける対数スペクトルビンを求めるのではなく、例えば10[msec]などの時間幅で切り出す。以後分かりやすさのため、時間インデクス、周波数インデクスをそれぞれt,fとし、音楽スペクトログラムをX(t,f)と記述する。図3には、入力音楽音曲信号を時間周波数解析して得る音楽スペクトログラムの一例を示している。

【0027】
第3のタイプの時間周波数マスク記憶部4には、マスク生成システム7で作成した時間周波数マスク(統合マスク)として第3のタイプの時間周波数マスクが記憶される。マスク生成システム7は、第1のタイプの時間周波数マスク生成部71と、第1のタイプの時間周波数マスク記憶部72と、歌声スペクトログラム分離部73と、F0軌跡推定部74と、第2のタイプの時間周波数マスク生成部75と、第2のタイプの時間周波数マスク記憶部76と、マスク統合部77とから構成される。第1のタイプの時間周波数マスク生成部71は、音楽スペクトログラム記憶部3に記憶した音楽スペクトログラム中の音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し(ステップST2)、低ランク行列とスパース行列の比較に基づいて、音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成する(ステップST3)。そして第1のタイプの時間周波数マスクは、第1のタイプの時間周波数マスク記憶部72記憶される。

【0028】
ロバスト主成分分析は、与えられた行列(2次元配列)を低ランク行列とスパース行列とに分解する手法であり、次式で定式化される。

【0029】
【数1】
JP2016156938A_000003t.gif
ここで、X,L,Sはそれぞれ入力行列,低ランク行列およびスパース行列であり、∥・∥*と∥・∥1はそれぞれ核ノルムとL1ノルム,λは低ランク性とスパース性のトレードオフパラメータを表す。一般に時間変化するデータ集合などを入力とし、頻出する成分(各フレームで繰り返し現れる成分)が低ランク行列に、それ以外の成分(各フレームに稀にしか現れない成分)がスパース行列に分解される。

【0030】
音楽スペクトログラムを入力行列Xと見なしてロバスト主成分分析を適用すると、繰り返し演奏されるため何度も出現する伴奏音(ドラムやギター)のスペクトルビンは低ランク行列Lへ、それ以外の歌声などの時間的な変動が大きいスペクトルビンはスパース行列Sへ分解される。本実施の形態では、分析結果から第1のタイプの時間周波数分析マスクとしてバイナリマスクを作成する。

【0031】
【数2】
JP2016156938A_000004t.gif
このバイナリマスクからなる第1のタイプの時間周波数分析マスクを音楽スペクトログラムX(t,f)へ適用することで歌声スペクトログラムが分離できる。

【0032】
なお図4には、音楽スペクトログラムからロバスト主成分分析により分析した結果のスパース行列(歌声)と低ランク行列(伴奏)とに分析した結果の一例と、両行列の各要素の値を比較して得た第1のタイプの時間周波数分析マスクとしてバイナリマスクの例を示している。図5は、図4の表示内容の理解を高めるために、音楽スペクトログラムの一部を拡大し、またスパース行列(歌声)と低ランク行列(伴奏)の一部を拡大し、さらに第1のタイプの時間周波数分析マスクとしてバイナリマスクの一部を拡大した図を示している。

【0033】
歌声スペクトログラム分離部73は、第1のタイプの時間周波数マスク(バイナリマスク)を音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離する(ステップST4)。F0軌跡推定部74は、分離された歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定する(ステップST5)。

【0034】
具体的には、ロバスト主成分分析により分離された歌声スペクトログラムXsrpca(t,f)から、Subharmonic Summation(SHS)を用いて歌声のF0軌跡を推定する。SHSについては、「Hermes, D. J.: Measurement of pitch by subharmonic summation, J. Acoust. Soc. Am., Vol. 83, No. 1, pp.257-264 (online), DOI: 10.1121/1.396427 (1988)」に詳しく説明されている。SHSは計算コストの低さとノイズへの頑健性を兼ね備えた音高推定法であり、スペクトルビンの各周波数ビンについて、そのビンをF0であると仮定したときの倍音に対応する周波数ビンのパワーを重みつきで足し合わせることで、当該ビンにF0が存在する尤度を計算する。この音高尤度関数の計算は、対数周波数スケールでは以下で定式化される。

【0035】
【数3】
JP2016156938A_000005t.gif
ここで、t,sはそれぞれ時間インデクスと対数周波数[cents]を表し、P(t,s)は時間フレームt,周波数s[cents]における入力スペクトログラムの振幅である。Nは足し合わせる倍音数,hnは各倍音の重み関数であり、本実施の形態ではそれぞれ15および0.86n-1とする。人間の聴覚特性の非線形性を考慮するため、SHSを適用する前に、入力スペクトルビンに対してA特性補正をかけるものとする。

【0036】
SHSによる音高尤度関数H(t,s)から歌声音高F(t)は以下の式で計算される。

【0037】
【数4】
JP2016156938A_000006t.gif
ここで、cl(t),ch(t)はそれぞれ、時間フレームtにおける音高探索周波数範囲の下限と上限([cents])である。

【0038】
図6は、F0軌跡推定部74によって推定された歌声基本周波数F0軌跡から第2のタイプの時間周波数マスク(バイナリマスク)を生成する過程の一例を示している。第2のタイプの時間周波数マスク生成部75は、歌声基本周波数F0軌跡に基づいて、歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成する(ステップST6)。生成された第2のタイプの時間周波数マスクは第2のタイプの時間周波数マスク記憶部76に記憶される。

【0039】
ロバスト主成分分析を用いた従来の歌声分離では、曲の一部しか現れないベースやドラム、メインボーカルと音高をずらして唱和するバックコーラスなども、歌声として分離されてしまう。歌声・伴奏音分離と歌声のF0推定は相互依存性をもっている。つまり、歌声のF0軌跡が与えられていれば、歌声分離に利用することができる一方、歌声が分離されていれば、そのF0軌跡を推定することは比較的容易である。そこでこの相補的な関係を利用した歌声分離のために入力音響信号に対して、統合マスク(第3のタイプの時間周波数マスク)を用いて、精密な歌声分離を行う。そこで、第2のタイプの時間周波数マスク生成部75は、歌声基本周波数F0軌跡を利用して、さらに精度の高い歌声分離を行うために、歌声基本周波数F0軌跡から、基本周波数(F0)と倍音周辺以外のパワーをマスキングする調波マスクを第2のタイプの時間周波数として生成する。ここで「歌声基本周波数F0と倍音周辺」とは、歌声基本周波数F0のピークとその倍音のピークを中心として、予め定めた周波数幅に入る周波数である。この周波数幅幅は、歌声基本周波数F0とその倍音のスペクトルの形状から自動的に定めることもできる。

【0040】
【数5】
JP2016156938A_000007t.gif
ここで、Ftは時間フレームtにおけるF0[cents],C(f)は周波数ビンfに対応する対数周波数[cents],Hは倍音数,wは各倍音でマスクを取る幅[cents]を示す。ロバスト主成分分析によるバイナリマスクと調波マスクを用いて、最終的な歌声と伴奏のスペクトログラムXs(t,f),Xm(t,f)はそれぞれ以下のように得られる。

【0041】
【数6】
JP2016156938A_000008t.gif
マスク統合部77は、第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとを統合して第3のタイプの時間周波数マスクを時間周波数マスク(統合マスク)として作成する(ステップST7)。この第3のタイプの時間周波数マスクからなる時間周波数マスク(統合マスク)は、上位概念で言えば、調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有するものである。より具体的に言えば、第3のタイプの時間周波数マスク(統合マスク)は、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する。第3のタイプの時間周波数マスクを時間周波数マスク(統合マスク)は、第3のタイプの時間周波数マスク記憶部4に記憶される。

【0042】
図7は、第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)と第2のタイプの時間周波数マスク(歌声基本周波数F0による調波構造のバイナリマスク)を統合する場合の一例を画像で示している。図8は、図7の画像の理解を高めるために、図7に示した複数の画像の一部をそれぞれ拡大して示す図である。この例では、第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)と第2のタイプの時間周波数マスク(歌声基本周波数F0によるバイナリマスクまたは調波マスク)との統合を、第1のタイプの時間周波数マスクの選択領域と第2のタイプの時間周波数マスクの選択領域との論理積(AND)をとることにより両マスクを統合して第3のタイプの時間周波数マスク(統合バイナリマスク)を得ている。

【0043】
マスキング部5は、第3のタイプの時間周波数マスク(統合バイナリマスク)を音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成する(ステップST8)。このマスキング部5から出力される分離用歌声スペクトログラムを記憶部に記憶しておいてもよいのは勿論である。図9は、マスキング部5における処理を画像で示すための図である。また図10は、図9の画像の理解を高めるために、図9に示した複数の画像の一部をそれぞれ拡大して示す図である。図11(A)乃至(D)は、マスキング部5によるマスキング処理の状況を示す波形図である。なお図11(A)乃至(D)においては、スペクトログラムに含まれる1フレーム分のスペクトルを図示の対象としている。図11(A)は音楽スペクトログラムに含まれる混合音スペクトルX(f)である。そして図11(B)は混合音スペクトルX(f)に対応する第1のタイプの時間周波数マスク(ロバスト主成分分析マスクに含まれる1フレーム分の周波数マスク(Mb(f)であり、図11(C)は混合音スペクトルX(f)に対応する第2のタイプの時間周波数マスクに含まれる1フレーム分の周波数マスク[調波マスクMh(f)]である。そして図11(D)は、第1のタイプの時間周波数マスク(ロバスト主成分分析マスクに含まれる1フレーム分の周波数マスク(Mb(f)と第2のタイプの時間周波数マスクに含まれる1フレーム分の周波数マスク[調波マスクMh(f)]が統合されて生成された第3のタイプの時間周波数マスクに含まれる1フレーム分の周波数マスク[統合マスクMb(f)*Mh(f)]によってマスキングされて得た分離された歌声スペクトル[X(f)*Mb(f)*Mh(f)]である。図11(D)から分かるように、統合マスクを使用してマスキングを行うと分離精度が高くなっているのが分かる。

【0044】
そして信号分離生成部6は、分離用歌声スペクトログラムに基づいて歌声信号を分離生成する。具体的には、図12に示すように、信号分離生成部6は、マスキング部5から出力された分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成する(ステップST9)。

【0045】
本実施の形態の効果を確認するために、ロバスト主成分分析により歌声信号を分離した場合と、本実施の形態で歌声信号を分離した場合について、目的音源の歪みで分離精度を判定するNSDR(Normalized Signal-to-Distortion Ratio[dB])で、110曲の音楽音響信号から歌声信号を分離した結果を比較してみた。その結果、歌声の分離精度に関しては、本実施の形態では5.06 [dB]、ロバスト主成分分析では2.09 [dB]、伴奏の分離精度に関しては、本実施の形態では6.21 [dB]、ロバスト主成分分析では1.71 [dB]という結果が得られた。歌声分離及び伴奏分離の両方において、本実施の形態のほうが、RPCAよりも精度が高いことが確認された。

【0046】
なお上記各構成要件は、1以上のプロセッサとメモリによって実現するのが好ましい。またマスク生成システム4は、本実施の形態の歌声信号分離システムと一緒に構成する必要はない。すなわち第3のタイプの時間周波数マスク(統合マスク)は、歌声信号分離システムとは別に設けられたマスク生成システムによって事前に生成しておいてもよいのは勿論である。

【0047】
上記実施の形態では、2つバイナリマスクの統合に論理積(AND)を用いたが、本発明におけるマスクの統合は、上記実施の形態に限定されるものではない。図13は、マスクの統合の他の例を示す概念図である。この例では、第1のタイプの時間周波数マスク(RPCAによるバイナリマスク)の選択領域と第2のタイプの時間周波数マスク(歌声基本周波数F0による調波構造のバイナリマスク)の選択領域との論理積をとって、仮統合時間周波数マスクを生成する。そしてこの仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にすることにより第3のタイプの時間周波数マスク(統合バイナリマスク)とすることができる。この時間周波数マスクでは、歌が無い区間を推定して、推定された時間フレームの全要素を0にするため、さらに分離精度を高めることができる。

【0048】
図14は、マスクの統合のさらに他の例を示す概念図である。この例では、第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)の選択領域と第2のタイプの時間周波数マスク(歌声基本周波数F0による調波構造のバイナリマスク)の選択領域との論理積をとって、仮統合時間周波数マスクを生成する。そしてこの仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にし、且つ第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)から子音を通過させる要素を得て該要素を仮統合時間周波数マスクに反映して、第3のタイプの時間周波数マスク(統合バイナリマスク)とすることができる。このようにするとさらに分離精度を高めることができる。
【産業上の利用可能性】
【0049】
近年、既存楽曲をユーザが自分好みに編集・加工することを可能にする能動的音楽鑑賞システムの研究が盛んである。中でも、混合音中の歌声の編集は最も実現が難しい課題の一つであり、既存の歌声の声質を他の歌唱者の声質に直接変換する技術は提案されているが、歌声がもつ特徴的な音高軌跡、すなわち歌唱表現を編集する技術は実現されていなかったが、本発明によれば、調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを用いることにより、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を従来よりも精度よく分離できる。
【符号の説明】
【0050】
1 音楽音響信号
2 時間周波数解析部
3 音楽スペクトログラム記憶部
4 時間周波数マスク記憶部
5 マスキング部
6 信号分離生成部
7 マスク生成システム
71 時間周波数マスク生成部
72 時間周波数マスク記憶部
73 歌声スペクトログラム分離部
74 F0軌跡推定部
75 時間周波数マスク生成部
76 時間周波数マスク記憶部
77 マスク統合部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13