TOP > 国内特許検索 > 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム

音源分離システム、音源分離方法及び音源分離用コンピュータプログラム

国内特許コード P110003614
整理番号 1714
掲載日 2011年6月27日
出願番号 特願2009-511801
登録番号 特許第5201602号
出願日 平成20年4月14日(2008.4.14)
登録日 平成25年2月22日(2013.2.22)
国際出願番号 JP2008057310
国際公開番号 WO2008133097
国際出願日 平成20年4月14日(2008.4.14)
国際公開日 平成20年11月6日(2008.11.6)
優先権データ
  • 特願2007-106576 (2007.4.13) JP
発明者
  • 糸山 克寿
  • 奥乃 博
  • 後藤 真孝
出願人
  • 国立大学法人京都大学
  • 国立研究開発法人産業技術総合研究所
発明の名称 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム
発明の概要 複数の楽器演奏からなる音響信号から各楽器音ごとに音源を分離する。分離処理が行われるたびに、更新モデルパラメータ推定記憶部114が、更新パワースペクトルが初期パワースペクトルに近い状態からパワースペクトル分離記憶部に記憶された最新の複数のパワースペクトルに近い状態に徐々に近付くように、更新モデルパラメータにそれぞれ含まれるパラメータを推定する。そして更新パワースペクトルが初期パワースペクトルに近い状態からパワースペクトル分離記憶部112に記憶された最新の複数のパワースペクトルに近い状態になるまで、パワースペクトル分離記憶部112から更新分配関数計算記憶部118までの各部が処理動作を繰り返す。最終的な更新パワースペクトルは、調波モデルと非調波モデルとを含んで構成された、入力音響信号に含まれる一つの楽器の単音のパワースペクトルに近いものとなる。
従来技術、競合技術の概要


スピーカから出力される音楽音響信号(以下、単に「音響信号」という。)に含まれるドラムなどの非調波構造の信号成分を分離して、他の信号成分に影響を与えることなく独立に音量を増減させることができる音響信号処理システムが知られている(例えば、特許文献1参照)。



この従来のシステムは専ら音響信号に含まれる非調波構造の信号のみを対象とするものである。そのため、従来のシステムでは、「非調波構造と調波構造の両方の信号成分を含む混合音」を、それぞれの楽器音ごとに分離することはできなかった。



調波構造を表すモデル(以下、本明細書では「調波モデル」という。)と非調波構造を表すモデル(以下、本明細書では「非調波モデル」という。)を同時に扱うモデル(以下、本明細書では「調波・非調波混合モデル」という。)を用いた音源分離技術については報告例が見当たらない。
【特許文献1】
特開2006-5807号公報

産業上の利用分野


本発明は、複数種類の楽器音信号が含まれる入力音響信号から各楽器に対応する楽器音信号を分離することを可能にする音源分離システム、方法及びプログラムに関するものである。本発明は特に、調波構造と非調波構造の両方の信号成分を持った「複数の楽器演奏による混合音の音響信号」を各楽器パートごとの音源に分離する音源分離システム、方法、及びこれを実現するためのコンピュータプログラムに関するものである。

特許請求の範囲 【請求項1】
複数種類の楽器から発生した複数種類の楽器音に対応する複数の楽器音信号が含まれる入力音響信号と時間的に同期し且つ前記複数の入力音響信号に対応した前記複数種類の楽器によりそれぞれ演奏されるべき複数種類の楽譜についての楽譜情報データを記憶する楽譜情報データ記憶部と、
前記複数種類の楽器に関して、それぞれの前記楽器から生じる複数種類の単音を、それぞれ調波モデルと非調波モデルとからなる複数の調波・非調波混合モデルで表現するために予め作成された、前記調波・非調波混合モデルをそれぞれ構成するための複数のパラメータを含む複数のモデルパラメータを用いて、前記複数種類の楽譜に含まれる複数の単音をそれぞれ前記複数のモデルパラメータに置き換えて、前記複数種類の楽譜に対応した、複数の前記モデルパラメータが集まって構成される複数種類のモデルパラメータ集合データを作成して記憶手段に記憶するモデルパラメータ集合データ作成記憶部と、
前記複数種類のモデルパラメータ集合データから、各時刻における前記モデルパラメータを読み出し、読み出した複数の前記モデルパラメータにそれぞれ含まれる前記複数のパラメータと予め定めた第1のモデルパラメータ変換式とを用いて、読み出した前記複数のモデルパラメータに対応した複数の初期パワースペクトルを生成して記憶手段に記憶する第1のパワースペクトル生成記憶部と、
各時刻において、前記第1のパワースペクトル生成記憶部に記憶された前記複数の初期パワースペクトルを合成して各時刻毎の合成パワースペクトルを作り、各時刻毎の前記合成パワースペクトルに対する各時刻毎の前記複数の初期パワースペクトルの割合を示す複数の初期分配関数を計算して記憶手段に記憶する初期分配関数計算記憶部と、
第1回目の分離処理においては、各時刻の前記入力音響信号のパワースペクトルから、各時刻における前記複数の初期分配関数を用いて、各時刻における前記複数種類の楽器に対応する複数のパワースペクトルを分離して記憶手段に記憶し、第2回目以降の分離処理においては更新分配関数を用いて、各時刻における前記複数種類の楽器に対応する複数のパワースペクトルを分離して当該記憶手段に記憶するパワースペクトル分離記憶部と、
各時刻において分離された前記複数のパワースペクトルから、それぞれ前記調波・非調波混合モデルで表現するために必要な複数のパラメータを含む複数の更新モデルパラメータを推定し、複数の前記更新モデルパラメータが集まって構成される複数種類の更新モデルパラメータ集合データを作成して記憶手段に記憶する更新モデルパラメータ推定記憶部と、
前記更新モデルパラメータ推定記憶部に記憶されている前記複数種類の更新モデルパラメータ集合データから、各時刻における前記更新モデルパラメータを読み出して、読み出した複数の前記更新モデルパラメータにそれぞれ含まれる前記複数のパラメータと予め定めた第2のモデルパラメータ変換式とを用いて、読み出した前記複数の更新モデルパラメータに対応した複数の更新パワースペクトルを生成して記憶手段に記憶する第2のパワースペクトル生成記憶部と、
各時刻において、前記第2のパワースペクトル生成記憶部に記憶された前記複数の更新パワースペクトルを合成して各時刻毎の合成パワースペクトルを作り、各時刻毎の前記合成パワースペクトルに対する各時刻毎の前記複数の更新パワースペクトルの割合を示す複数の前記更新分配関数を計算して記憶手段に記憶する更新分配関数計算記憶部とを備え、
前記パワースペクトル分離記憶部が第2回目以降の前記分離処理を行うたびに、前記更新モデルパラメータ推定記憶部は、前記更新パワースペクトルが前記初期パワースペクトルに近い状態から前記パワースペクトル分離記憶部に記憶された最新の前記複数のパワースペクトルに近い状態に徐々に近付くように、前記複数の更新モデルパラメータにそれぞれ含まれる前記複数のパラメータを推定するように構成され、
前記更新パワースペクトルが前記初期パワースペクトルに近い状態から前記パワースペクトル分離記憶部に記憶された最新の前記複数のパワースペクトルに近い状態になるまで、前記パワースペクトル分離記憶部と、前記更新モデルパラメータ推定記憶部と、前記第2のパワースペクトル生成記憶部と、前記更新分配関数計算記憶部とが処理動作を繰り返すことを特徴とする音源分離システム。
【請求項2】
前記パワースペクトル分離記憶部が前記分離処理を行うたびに、前記パワースペクトル分離記憶部に記憶された各時刻における前記複数のパワースペクトルと前記第2のパワースペクトル生成記憶部に記憶された各時刻における前記複数の更新パワースペクトルとの間のKLダイバージェンスJ1×α(前記αは0≦α≦1を満たす実数)と、前記第2のパワースペクトル生成記憶部に記憶された各時刻における前記複数の更新パワースペクトルと前記第1のパワースペクトル生成記憶部に記憶された各時刻における前記複数の初期パワースペクトルとの間のKLダイバージェンスJ2×(1-α)のすべての総和J0に基づいてコスト関数Jを定め、該コスト関数を最小化するように、前記複数の更新モデルパラメータにそれぞれ含まれる前記複数のパラメータを推定するべく更新モデルパラメータ推定記憶部が構成され、前記αは前記分離処理が行われるたびに増加し、αが1になるまで、前記パワースペクトル分離記憶部と、前記更新モデルパラメータ推定記憶部と、第2のパワースペクトル生成記憶部と、前記更新分配関数計算記憶部とが処理動作を繰り返すことを特徴とする請求項1に記載の音源分離システム。
【請求項3】
前記第1及び第2のモデルパラメータ変換式では、それぞれ下記の調波・非調波混合モデルを用い、
hkl=rklc(Hkl(t,f)+Ikl(t,f))
前記hklは単音のパワースペクトルであり、
前記rklcは各チャンネルの相対的な強度を表すパラメータであり、
Hkl(t,f)は音量、基本周波数F0の時間変化、パワーエンベロープの概形を表現するy番目のガウシアンの重み係数、n次倍音成分の相対強度、オンセット時刻、音長及び周波数方向の分散という特徴量を表す複数のパラメータにより構成される調波モデルであり、
前記Ikl(t,f)はノンパラメトリックな関数によって表される非調波モデルである請求項2に記載の音源分離システム。
【請求項4】
前記更新モデルパラメータ推定記憶部で使用する前記コスト関数は、前記非調波モデルが調波構造を表現しないための制約条件を含んでいる請求項3に記載の音源分離システム。
【請求項5】
前記調波モデルは、音高の時間変化を扱うための関数μkl(t)を含んでおり、
前記更新モデルパラメータ推定記憶部で使用する前記コスト関数は、前記基本周波数F0が時間的に不連続値をとらないための制約条件を含んでいる請求項4に記載の音源分離システム。
【請求項6】
前記更新モデルパラメータ推定記憶部で使用する前記コスト関数は、前記調波モデルについて同一楽器の単音に対して倍音成分の相対強度比を一定にするための制約条件を含んでいる請求項5に記載の音源分離システム。
【請求項7】
前記更新モデルパラメータ推定記憶部で使用する前記コスト関数は、前記非調波モデルについて同一楽器の単音に対して非調波成分比を一定にするための制約条件を含んでいる請求項6に記載の音源分離システム。
【請求項8】
前記複数種類の楽器に関して、それぞれの前記楽器から生じる複数種類の単音に対応した複数の標準的なパワースペクトルにより表現された複数のテンプレートに基づいて、前記複数種類の単音を、それぞれ調波モデルと非調波モデルとからなる複数の調波・非調波混合モデルで表現するために、前記調波・非調波混合モデルをそれぞれ構成するための複数のパラメータを含む複数のモデルパラメータを作成して記憶手段に予め記憶する音モデル構成用モデルパラメータ作成記憶部を更に備えており、
前記モデルパラメータ集合データ作成記憶部は、前記音モデル構成用モデルパラメータ作成記憶部に記憶された前記複数のモデルパラメータを用いて、前記モデルパラメータ集合データを作成する請求項1に記載の音源分離システム。
【請求項9】
前記楽譜情報データに含まれる前記複数の楽器ごとの複数の単音の情報を複数のパラメータ音に変換する音響変換手段と、前記複数のパラメータ音の複数のパワースペクトルを、それぞれ調波モデルと非調波モデルとからなる複数の調波・非調波混合モデルで表現するために、前記調波・非調波混合モデルをそれぞれ構成するための複数のパラメータを含む複数のモデルパラメータを作成する音モデル構成用モデルパラメータ作成部とを更に備えており、
前記モデルパラメータ集合データ作成記憶部は、前記音モデル構成用モデルパラメータ作成部が作成した前記複数のモデルパラメータを用いて、前記モデルパラメータ集合データを作成する請求項1に記載の音源分離システム。
【請求項10】
複数種類の楽器から発生した複数種類の楽器音に対応する複数の楽器音信号が含まれる入力音響信号と時間的に同期し且つ前記複数の入力音響信号に対応した前記複数種類の楽器によりそれぞれ演奏されるべき複数種類の楽譜についての楽譜情報データを用意するステップと、
前記複数種類の楽器に関して、それぞれの前記楽器から生じる複数種類の単音を、それぞれ調波モデルと非調波モデルとからなる複数の調波・非調波混合モデルで表現するために予め作成された、前記調波・非調波混合モデルをそれぞれ構成するための、複数のパラメータを含む複数のモデルパラメータを用いて、前記複数種類の楽譜に含まれる複数の単音をそれぞれ前記複数のモデルパラメータに置き換えて、前記複数種類の楽譜に対応した、複数の前記モデルパラメータが集まって構成される複数種類のモデルパラメータ集合データを作成するステップと、
前記複数種類のモデルパラメータ集合データから、各時刻における前記モデルパラメータを読み出し、読み出した複数の前記モデルパラメータにそれぞれ含まれる前記複数のパラメータと予め定めた第1のモデルパラメータ変換式とを用いて、読み出した前記複数のモデルパラメータに対応した複数の初期パワースペクトルを生成するステップと、
各時刻において、前記複数の初期パワースペクトルを合成して各時刻毎の合成パワースペクトルを作り、各時刻毎の前記合成パワースペクトルに対する各時刻毎の前記複数の初期パワースペクトルの割合を示す複数の初期分配関数を計算するステップと、
第1回目の分離処理においては、各時刻の前記入力音響信号のパワースペクトルから、各時刻における前記複数の初期分配関数を用いて、各時刻における前記複数種類の楽器に対応する複数のパワースペクトルを分離し、第2回目以降の分離処理においては更新分配関数を用いて、各時刻における前記複数種類の楽器に対応する複数のパワースペクトルを分離するステップと、
各時刻において分離された前記複数のパワースペクトルから、それぞれ前記調波・非調波混合モデルで表現するために必要な複数のパラメータを含む複数の更新モデルパラメータを推定し、複数の前記更新モデルパラメータが集まって構成される複数種類の更新モデルパラメータ集合データを作成するステップと、
前記複数種類の更新モデルパラメータ集合データから、各時刻における前記更新モデルパラメータを読み出して、読み出した複数の前記更新モデルパラメータにそれぞれ含まれる前記複数のパラメータと予め定めた第2のモデルパラメータ変換式とを用いて、前記読み出した複数の更新モデルパラメータに対応した複数の更新パワースペクトルを生成するステップと、
各時刻において、前記複数の更新パワースペクトルを合成して各時刻毎の合成パワースペクトルを作り、各時刻毎の前記合成パワースペクトルに対する各時刻毎の前記複数の更新パワースペクトルの割合を示す複数の前記更新分配関数を計算するステップと、
第2回目以降の前記分離処理を行うたびに、前記更新モデルパラメータを推定するステップでは、前記更新パワースペクトルが前記初期パワースペクトルに近い状態から前記パワースペクトルを分離するステップで分離された最新の前記複数のパワースペクトルに近い状態に徐々に近付くように、前記複数の更新モデルパラメータにそれぞれ含まれる前記複数のパラメータを推定し、
前記更新パワースペクトルが前記初期パワースペクトルに近い状態から前記パワースペクトルを分離するステップで分離された最新の前記複数のパワースペクトルに近い状態になるまで、前記パワースペクトルを分離するステップと、更新モデルパラメータを推定するステップと、前記更新パワースペクトルを生成するステップと、前記更新分配関数を計算するステップとを繰り返すことをコンピュータが実施することを特徴とする音源分離方法。
【請求項11】
前記パワースペクトルを分離するステップで、第2回目以降の前記分離処理を行うたびに、各時刻における前記複数のパワースペクトルと各時刻における前記複数の更新パワースペクトルとの間のKLダイバージェンスJ1×α(前記αは0≦α≦1を満たす実数)と、各時刻における前記複数の更新パワースペクトルと各時刻における前記複数の初期パワースペクトルとの間のKLダイバージェンスJ2×(1-α)のすべての総和J0に基づいてコスト関数Jを定め、該コスト関数を最小化するように、前記複数の更新モデルパラメータにそれぞれ含まれる前記複数のパラメータを推定し、前記αを前記分離処理が行われるたびに増加させて、前記αが1になると前記分離処理を停止する請求項10に記載の音源分離方法。
【請求項12】
コンピュータにインストールされて下記のステップを実行する音源分離用コンピュータプログラムであって、
複数種類の楽器から発生した複数種類の楽器音に対応する複数の楽器音信号が含まれる入力音響信号と時間的に同期し且つ前記複数の入力音響信号に対応した前記複数種類の楽器によりそれぞれ演奏されるべき複数種類の楽譜についての楽譜情報データを用意するステップと、
前記複数種類の楽器に関して、それぞれの前記楽器から生じる複数種類の単音を、それぞれ調波モデルと非調波モデルとからなる複数の調波・非調波混合モデルで表現するために予め作成された、前記調波・非調波混合モデルをそれぞれ構成するための複数のパラメータを含む複数のモデルパラメータを用いて、前記複数種類の楽譜に含まれる複数の単音をそれぞれ前記複数のモデルパラメータに置き換えて、前記複数種類の楽譜に対応した、複数の前記モデルパラメータが集まって構成される複数種類のモデルパラメータ集合データを作成するステップと、
前記複数種類のモデルパラメータ集合データから、各時刻における前記モデルパラメータを読み出し、読み出した複数の前記モデルパラメータにそれぞれ含まれる前記複数のパラメータと予め定めた第1のモデルパラメータ変換式とを用いて、読み出した前記複数のモデルパラメータに対応した複数の初期パワースペクトルを生成するステップと、
各時刻において、前記複数の初期パワースペクトルを合成して各時刻毎の合成パワースペクトルを作り、各時刻毎の前記合成パワースペクトルに対する各時刻毎の前記複数の初期パワースペクトルの割合を示す複数の初期分配関数を計算するステップと、
第1回目の分離処理においては、各時刻の前記入力音響信号のパワースペクトルから、各時刻における前記複数の初期分配関数を用いて、各時刻における前記複数種類の楽器に対応する複数のパワースペクトルを分離し、第2回目以降の分離処理においては更新分配関数を用いて、各時刻における前記複数種類の楽器に対応する複数のパワースペクトルを分離するステップと、
各時刻において分離された前記複数のパワースペクトルから、それぞれ前記調波・非調波混合モデルで表現するために必要な複数のパラメータを含む複数の更新モデルパラメータを推定し、複数の前記更新モデルパラメータが集まって構成される複数種類の更新モデルパラメータ集合データを作成するステップと、
前記複数種類の更新モデルパラメータ集合データから、各時刻における前記更新モデルパラメータを読み出して、読み出した複数の前記更新モデルパラメータにそれぞれ含まれる前記複数のパラメータと予め定めた第2のモデルパラメータ変換式とを用いて、読み出した複数の更新モデルパラメータに対応した複数の更新パワースペクトルを生成するステップと、
各時刻において、前記複数の更新パワースペクトルを合成して各時刻毎の合成パワースペクトルを作り、各時刻毎の前記合成パワースペクトルに対する各時刻毎の前記複数の更新パワースペクトルの割合を示す複数の前記更新分配関数を計算するステップと、
第2回目以降の前記分離処理を行うたびに、前記更新モデルパラメータを推定するステップでは、前記更新パワースペクトルが前記初期パワースペクトルに近い状態から前記パワースペクトルを分離するステップで分離された最新の前記複数のパワースペクトルに近い状態に徐々に近付くように、前記複数の更新モデルパラメータにそれぞれ含まれる前記複数のパラメータを推定し、
前記更新パワースペクトルが前記初期パワースペクトルに近い状態から前記パワースペクトルを分離するステップで分離された最新の前記複数のパワースペクトルに近い状態になるまで、前記パワースペクトルを分離するステップと、前記更新モデルパラメータを推定するステップと、前記更新パワースペクトルを生成するステップと、前記更新分配関数を計算するステップとを繰り返すことを特徴とする音源分離用コンピュータプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2009511801thum.jpg
出願権利状態 登録
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close