TOP > 国内特許検索 > 多チャネル信号処理装置、方法、及びプログラム > 明細書

明細書 :多チャネル信号処理装置、方法、及びプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5971646号 (P5971646)
公開番号 特開2013-201722 (P2013-201722A)
登録日 平成28年7月22日(2016.7.22)
発行日 平成28年8月17日(2016.8.17)
公開日 平成25年10月3日(2013.10.3)
発明の名称または考案の名称 多チャネル信号処理装置、方法、及びプログラム
国際特許分類 H04S   1/00        (2006.01)
H04S   5/02        (2006.01)
G10L  21/0308      (2013.01)
FI H04S 1/00 F
H04S 5/02 X
G10L 21/0308 A
請求項の数または発明の数 11
全頁数 33
出願番号 特願2012-070301 (P2012-070301)
出願日 平成24年3月26日(2012.3.26)
審査請求日 平成27年3月6日(2015.3.6)
特許権者または実用新案権者 【識別番号】000125370
【氏名又は名称】学校法人東京理科大学
発明者または考案者 【氏名】田邉 造
【氏名】古川 利博
【氏名】名取 隆廣
個別代理人の代理人 【識別番号】100079049、【弁理士】、【氏名又は名称】中島 淳
【識別番号】100084995、【弁理士】、【氏名又は名称】加藤 和詳
【識別番号】100099025、【弁理士】、【氏名又は名称】福田 浩志
審査官 【審査官】渡邊 正宏
参考文献・文献 特開平07-319488(JP,A)
特開2009-069425(JP,A)
特開2009-251134(JP,A)
特開2006-330389(JP,A)
寺島 大雅 Hiromasa TERASHIMA,DSPを用いた雑音抑圧法のための有色性駆動源カルマンフィルタアルゴリズム Kalman Filter Algorithm with Colored Driving Source for Noise Suppression Method using DSP,FIT2011 第10回情報科学技術フォーラム 講演論文集 第2分冊 査読付き論文・一般論文 データベース 自然言語・音声・音楽 人工知能・ゲーム 生体情報科学 Forum on Information Technology 2011,2011年 8月22日,p.241-245
調査した分野 G10L 13/00-13/10
G10L 15/00-17/26
G10L 19/00-19/26
G10L 21/00-21/18
G10L 25/00-25/93
G10L 99/00
H04R 3/00- 3/14
H04S 1/00- 7/00
特許請求の範囲 【請求項1】
各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて前記第1信号のスペクトル信号と推定される推定第1スペクトル信号を抽出し、周波数領域の信号である前記推定第1スペクトル信号を時間領域の信号に変換して前記第1信号と推定される時間領域の推定第1信号を抽出する抽出手段と、
前記抽出手段で抽出された前記時間領域の推定第1信号の分散値、前記観測信号の分散値から前記推定第1信号の分散値を差し引いて得られる前記第2信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する推定手段と、
を含む多チャネル信号処理装置。
【請求項2】
前記推定手段により推定された前記第1信号または前記第2信号を含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第2信号と推定される時間領域の推定第2信号を抽出する後段抽出手段と、
前記後段抽出手段で抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第1信号または前記第2信号を推定する後段推定手段と、
を含む請求項1記載の多チャネル信号処理装置。
【請求項3】
前記推定手段により推定された前記第1信号または前記第2信号を含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、スペクトル信号から各々得られるスペクトルエントロピーに基づいて前記第2信号のスペクトル信号と推定される推定第2スペクトル信号を抽出し、周波数領域の信号である前記推定第2スペクトル信号を時間領域の信号に変換して前記第2信号と推定される時間領域の推定第2信号を抽出する後段抽出手段と、
前記後段抽出手段で抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第1信号または前記第2信号を推定する後段推定手段と、
を含む請求項1記載の多チャネル信号処理装置。
【請求項4】
各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第2信号と推定される時間領域の推定第2信号を抽出する抽出手段と、
前記抽出手段で抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する推定手段と、
を含む多チャネル信号処理装置。
【請求項5】
各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、該パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて前記第2信号のスペクトル信号と推定される推定第2スペクトル信号を抽出し、周波数領域の信号である前記推定第2スペクトル信号を時間領域の信号に変換して前記第2信号と推定される時間領域の推定第2信号を抽出する抽出手段と、
前記抽出手段で抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する推定手段と、
を含む多チャネル信号処理装置。
【請求項6】
前記抽出手段は、前記観測信号を所定フレーム長のフレーム毎に前記周波数領域のスペクトル信号に変換し、フレーム毎に前記スペクトルエントロピーを求め、第1所定フレーム数分のスペクトルエントロピーの平均σ’が、現フレームのスペクトルエントロピーより小さい場合にはσ’、大きい場合にはσ’に所定の係数αを乗算したασ’となる値σ”を得、前記第1信号が過去第2所定フレーム数連続している場合はσ”、前記第1信号が過去第2所定フレーム数連続しておらず、かつ前記第2信号が過去第2所定フレーム数連続している場合はσ’、前記第1信号が過去第2所定フレーム数連続しておらず、かつ前記第2信号が過去第2所定フレーム数連続していない場合はσ”を閾値σとし、フレームのスペクトルエントロピーが閾値σより小さい場合には、現フレームを第1信号と判定し、フレームのスペクトルエントロピーが閾値σ以上の場合には、現フレームを第2信号と判定する請求項5記載の多チャネル信号処理装置。
【請求項7】
各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて前記第1信号のスペクトル信号と推定される推定第1スペクトル信号を抽出し、周波数領域の信号である前記推定第1スペクトル信号を時間領域の信号に変換して前記第1信号と推定される時間領域の推定第1信号を抽出する抽出手段と、
前記抽出手段で抽出された前記時間領域の推定第1信号の分散値、前記観測信号の分散値から前記推定第1信号の分散値を差し引いて得られる前記第2信号の分散値、並びに前記複数チャネルの観測信号を用いて、演算量軽減型有色駆動源付カルマンフィルタにより、前記第1信号または前記第2信号を推定する推定手段と、を含み、
前記演算量軽減型有色駆動源付カルマンフィルタは、時刻nまでの観測信号を用いて時刻n+1における前記第1信号または前記第2信号を推定する有色駆動源付カルマンフィルタの要素のうち、時刻n+1に関する要素のみを取り出したカルマンフィルタである
チャネル信号処理装置。
【請求項8】
各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて前記第1信号のスペクトル信号と推定される推定第1スペクトル信号を抽出し、周波数領域の信号である前記推定第1スペクトル信号を時間領域の信号に変換して前記第1信号と推定される時間領域の推定第1信号を抽出し、
抽出された前記時間領域の推定第1信号の分散値、前記観測信号の分散値から前記推定第1信号の分散値を差し引いて得られる前記第2信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する
多チャネル信号処理方法。
【請求項9】
各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第2信号と推定される時間領域の推定第2信号を抽出し、
抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する
を含む多チャネル信号処理方法。
【請求項10】
各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、該パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて前記第2信号のスペクトル信号と推定される推定第2スペクトル信号を抽出し、周波数領域の信号である前記推定第2スペクトル信号を時間領域の信号に変換して前記第2信号と推定される時間領域の推定第2信号を抽出し、
抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する
多チャネル信号処理方法。
【請求項11】
コンピュータを、請求項1~請求項7のいずれか1項記載の多チャネル信号処理装置を構成する各手段として機能させるための多チャネル信号処理プログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、多チャネル信号処理装置、方法、及びプログラムに係り、特に、多チャネル信号に含まれる特定の信号を抽出または抑圧する多チャネル信号処理装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来、ステレオ信号をチャネル毎に複数の周波数帯域に分割し、周波数帯域毎のチャネル間の類似度を計算し、類似度から中央付近に定位する音源信号を抑圧、もしくは強調するための減衰係数を計算し、その減衰係数を各周波数帯域信号に乗算し、チャネル毎の各周波数帯域信号を再合成して出力するステレオ音響信号処理装置が提案されている(例えば、特許文献1参照)。
【0003】
特許文献1に記載のステレオ音響信号処理装置は、ステレオ信号入力部に入力される音響信号が、強調、もしくは抑圧したい目的音源信号が中央付近に定位するように収音されているステレオ信号である場合に有効である。詳細には、ステレオ信号入力部に入力されたステレオ信号(左チャネルの信号sL、右チャネルの信号sR)の各々を帯域分割数Nの周波数領域の信号(fL(k)及びfR(k)、k=0,・・・,N-1)に変換し、同じ周波数帯域毎にfL(k)とfR(k)との類似度a(k)を計算する。周波数帯域毎に計算された類似度a(k)に基づき周波数帯域毎に減衰係数g(k)を算出し、同一周波数帯域において、左右チャネル間で同一の減衰係数g(k)が各周波数帯域信号fL(k)に乗算し再合成することで、チャネル間の類似度の大きな成分だけの成分集合sL'、sR'が出力され、その結果、中央付近に定位する音源信号だけが残る。
【0004】
このように、特許文献1に記載のステレオ音響信号処理装置では、全ての帯域に対して処理を行って、目的音源信号が中央付近に定位する音源信号を得ている。
【0005】
また、2チャネルの入力音響信号各々のスペクトルデータを生成し、そのスペクトルデータにおける特定の音響信号(ボーカル信号の音声)に対応する設定周波数帯域に属する複数の周波数ビン各々のデータが、2チャネル相互間で所定の近似条件を満たす場合に、その周波数ビンのデータのパワーを縮減補正し、補正後のスペクトルデータに基づく時間領域の補正後音響信号と、2チャネル各々における他チャネルに対する差信号とを合成することによりステレオ音響信号を構成する2チャネルの出力音響信号を生成する音響信号処理装置が提案されている(例えば、特許文献2参照)。
【0006】
特許文献2に記載の音響信号処理装置では、L及びRの2チャンネル各々について、他方のチャンネルに対する入力音響信号の差分を計算した結果である差信号(ΔXL(t)=XL(t)-XR(t)とΔXR(t)=XR(t)-XL(t))を生成する。そして、L及びRの2チャンネル各々について、時間領域の補正後音響信号XL'(t)及びXR'(t)と、差信号ΔXL(t)及びΔXR(t)とを、例えば重み付け加算により合成することにより、ステレオ音響信号を構成する2チャンネルの出力音響信号YL(t)、YR(t)を生成する。
【先行技術文献】
【0007】

【特許文献1】特開2002-78100号公報
【特許文献2】特開2008-72600号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献1に記載の技術では、特定の周波数成分を抑圧することにより、周波数スペクトルが孤立する箇所が発生し、時間領域の信号に変換した際にトーン性のミュージカルノイズとして聞こえてしまう、という問題がある。
【0009】
また、特許文献2に記載の技術では、差信号を合成して失われた周波数帯域の信号を補完することで、ミュージカルノイズの発生を防止している。特許文献1に記載の技術に比べ演算量が軽減されているものの、左右の信号に同一の差信号を合成して補正するため、生成される音響信号のステレオ感が減少し、音源信号の臨場感が損なわれる。また、抽出する信号がボーカル信号のような中央付近に定位する音源信号の場合には、その信号がモノラル信号となるため、その信号を補正するための差信号を生成することができない。
【0010】
このように、特許文献1及び2に記載の技術では、ステレオ感が無くなり、再現性が悪くなる、という問題がある。
【0011】
本発明は、上記問題点に鑑みてなされたものであり、ステレオ及び2チャネルを含む多チャネルの入力信号に含まれる特定の信号を抽出または抑圧する場合において、ステレオ感を損なわず再現性の良い多チャネル信号を出力することができる多チャネル信号処理装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するために、第1の発明に係る多チャネル信号処理装置は、各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて前記第1信号のスペクトル信号と推定される推定第1スペクトル信号を抽出し、周波数領域の信号である前記推定第1スペクトル信号を時間領域の信号に変換して前記第1信号と推定される時間領域の推定第1信号を抽出する抽出手段と、前記抽出手段で抽出された前記時間領域の推定第1信号の分散値、前記観測信号の分散値から前記推定第1信号の分散値を差し引いて得られる前記第2信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する推定手段と、を含んで構成されている。
【0013】
第1の発明に係る多チャネル信号処理装置によれば、抽出手段が、各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて第1信号のスペクトル信号と推定される推定第1スペクトル信号を抽出し、周波数領域の信号である推定第1スペクトル信号を時間領域の信号に変換して第1信号と推定される時間領域の推定第1信号を抽出する。そして、抽出手段で抽出された時間領域の推定第1信号の分散値、観測信号の分散値から推定第1信号の分散値を差し引いて得られる第2信号の分散値、並びに複数チャネルの観測信号を用いて、複数チャネルに対応した要素を含む第2信号のみから構成される状態方程式、及び複数チャネルに対応した要素を含む第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、第1信号または第2信号を推定する。
【0014】
有色駆動源付カルマンフィルタとは、駆動源が有色信号の場合にも適用可能なカルマンフィルタであり、観測信号から目的の状態量(ここでは、第1信号または第2信号)を推定するためのカルマンフィルタである。
【0015】
これにより、多チャネル信号に含まれる特定の信号を抽出または抑圧する場合において、各チャネルに対して同一の差信号で補完するような場合に比べて、ステレオ感を損なわず再現性の良いステレオ信号を出力することができる。また、時間領域から周波数領域への変換、または周波数領域から時間領域への逆変換処理が1回軽減される。
【0016】
また、第1の発明の多チャネル信号処理装置は、前記推定手段により推定された前記第1信号または前記第2信号を含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第2信号と推定される時間領域の推定第2信号を抽出する後段抽出手段と、前記後段抽出手段で抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第1信号または前記第2信号を推定する後段推定手段と、をさらに含んで構成することができる。
【0017】
また、第1の発明の多チャネル信号処理装置は、前記推定手段により推定された前記第1信号または前記第2信号を含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、スペクトル信号から各々得られるスペクトルエントロピーに基づいて前記第2信号のスペクトル信号と推定される推定第2スペクトル信号を抽出し、周波数領域の信号である前記推定第2スペクトル信号を時間領域の信号に変換して前記第2信号と推定される時間領域の推定第2信号を抽出する後段抽出手段と、前記後段抽出手段で抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、有色駆動源付カルマンフィルタにより、前記第1信号または前記第2信号を推定する後段推定手段と、をさらに含んで構成することができる。
【0018】
また、第2の発明に係る多チャネル信号処理装置は、各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第2信号と推定される時間領域の推定第2信号を抽出する抽出手段と、前記抽出手段で抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する推定手段と、を含んで構成されている。
【0019】
第2の発明に係る多チャネル信号処理装置によれば、抽出手段が、各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、第2信号と推定される時間領域の推定第2信号を抽出する。推定第1信号を抽出した第1の発明の抽出手段と異なり、第2の発明の抽出手段は推定第2信号を抽出する。そして、抽出手段で抽出された時間領域の推定第2信号の分散値、観測信号の分散値から推定第2信号の分散値を差し引いて得られる第1信号の分散値、並びに複数チャネルの観測信号を用いて、複数チャネルに対応した要素を含む第2信号のみから構成される状態方程式、及び複数チャネルに対応した要素を含む第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、第1信号または第2信号を推定する。
【0020】
これにより、多チャネル信号に含まれる特定の信号を抽出または抑圧する場合において、ステレオ感を損なわず再現性の良いステレオ信号を出力することができる。また、時間領域のみの信号処理となるため、第1の発明に比べて演算量が軽減される。
【0021】
また、第3の発明に係る多チャネル信号処理装置は、各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、該パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて前記第2信号のスペクトル信号と推定される推定第2スペクトル信号を抽出し、周波数領域の信号である前記推定第2スペクトル信号を時間領域の信号に変換して前記第2信号と推定される時間領域の推定第2信号を抽出する抽出手段と、前記抽出手段で抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する推定手段と、を含んで構成されている。
【0022】
第3の発明に係る多チャネル信号処理装置によれば、抽出手段が、各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて第2信号のスペクトル信号と推定される推定第2スペクトル信号を抽出し、周波数領域の信号である推定第2スペクトル信号を時間領域の信号に変換して第2信号と推定される時間領域の推定第2信号を抽出する。推定第1信号を抽出した第1の発明の抽出手段と異なり、第2の発明の抽出手段は推定第2信号を抽出する。そして、抽出手段で抽出された時間領域の推定第2信号の分散値、観測信号の分散値から推定第2信号の分散値を差し引いて得られる第1信号の分散値、並びに複数チャネルの観測信号を用いて、複数チャネルに対応した要素を含む第2信号のみから構成される状態方程式、及び複数チャネルに対応した要素を含む第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、第1信号または第2信号を推定する。
【0023】
これにより、多チャネル信号に含まれる特定の信号を抽出または抑圧する場合において、ステレオ感を損なわず再現性の良いステレオ信号を出力することができる。
【0024】
また、第4の発明に係る多チャネル信号処理方法は、各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換し、各スペクトル信号の比に基づいて前記第1信号のスペクトル信号と推定される推定第1スペクトル信号を抽出し、周波数領域の信号である前記推定第1スペクトル信号を時間領域の信号に変換して前記第1信号と推定される時間領域の推定第1信号を抽出し、抽出された前記時間領域の推定第1信号の分散値、前記観測信号の分散値から前記推定第1信号の分散値を差し引いて得られる前記第2信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する方法である。
【0025】
また、第5の発明に係る多チャネル信号処理方法は、各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々の自己相関のピーク値に基づいて、前記第2信号と推定される時間領域の推定第2信号を抽出し、抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する方法である。
【0026】
また、第6の発明に係る多チャネル信号処理方法は、各チャネル間で共通に含まれる第1信号と、チャネル毎に異なる第2信号とを含む複数チャネルの時間領域の観測信号各々を周波数領域のスペクトル信号に変換して各々のパワースペクトル密度を演算し、該パワースペクトル密度から各々得られるスペクトルエントロピーに基づいて前記第2信号のスペクトル信号と推定される推定第2スペクトル信号を抽出し、周波数領域の信号である前記推定第2スペクトル信号を時間領域の信号に変換して前記第2信号と推定される時間領域の推定第2信号を抽出し、抽出された前記時間領域の推定第2信号の分散値、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、並びに前記複数チャネルの観測信号を用いて、前記複数チャネルに対応した要素を含む前記第2信号のみから構成される状態方程式、及び前記複数チャネルに対応した要素を含む前記第1信号と第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号または前記第2信号を推定する方法である。
【0027】
また、第7の発明に係る多チャネル信号処理プログラムは、コンピュータを、上記の多チャネル信号処理装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【0028】
以上説明したように、本発明の多チャネル信号処理装置、方法、及びプログラムによれば、ステレオ及び2チャネルを含む多チャネルの入力信号に含まれる特定の信号を抽出または抑圧する場合において、ステレオ感を損なわず再現性の良い多チャネル信号を出力することができる、という効果が得られる。
【図面の簡単な説明】
【0029】
【図1】第1の実施の形態に係るステレオ信号処理装置の概略構成を示すブロック図である。
【図2】観測信号の観測状況を説明するための概略図である。
【図3】周波数領域変換部の処理を説明するための図である。
【図4】ボーカル信号抽出部の処理を説明するための図である。
【図5】時間領域変換部の処理を説明するための図である。
【図6】状態空間モデルを表すブロック図である。
【図7】第1の実施の形態におけるステレオ信号処理の内容を示すフローチャートである。
【図8】有色駆動原付カルマンアルゴリズムの内容を示すフローチャートである。
【図9】第2の実施の形態に係るステレオ信号処理装置の概略構成を示すブロック図である。
【図10】第2の実施の形態におけるステレオ信号処理の内容を示すフローチャートである。
【図11】第3の実施の形態に係るステレオ信号処理装置の概略構成を示すブロック図である。
【図12】自己相関処理部の処理を説明するための図である。
【図13】ピーク値検出部の処理を説明するための図である。
【図14】第3の実施の形態におけるステレオ信号処理の内容を示すフローチャートである。
【図15】第4の実施の形態に係るステレオ信号処理装置の概略構成を示すブロック図である。
【図16】第4の実施の形態におけるステレオ信号処理の内容を示すフローチャートである。
【図17】演算量軽減型有色駆動原付カルマンフィルタを説明するための図である。
【図18】演算量軽減型有色駆動原付カルマンフィルタを説明するための図である。
【図19】演算量軽減型有色駆動原付カルマンフィルタを説明するための図である。
【図20】演算軽減型有色駆動原付カルマンアルゴリズムの内容を示すフローチャートである。
【発明を実施するための形態】
【0030】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<第1の実施の形態>
第1の実施の形態では、本発明の第1信号の一例を、例えばLチャネルマイクとRチャネルマイクとの中央付近を音源位置とするボーカル信号とし、本発明の第2信号の一例を、例えば楽器等を音源とする楽曲信号とする場合について説明する。

【0031】
図1に示すように、第1の実施の形態に係るステレオ信号処理装置10は、A/D変換部12L,12Rと、周波数領域変換部14L,14Rと、スペクトル比演算部16と、ボーカル信号抽出部18と、時間領域変換部20と、楽曲信号推定部22と、D/A変換部24L,24Rとを含んで構成されている。ステレオ信号処理装置10は、ASIC(Application Specific Integrated Circuit)等の半導体集積回路により構成することができる。

【0032】
A/D変換部12L,12Rは、外部から入力されたアナログ信号である観測信号x(n),x(n)(図1中では観測信号L,観測信号Rと表記。以下、図9、11、15においても同様)を各々ディジタル信号に変換し、ディジタル信号に変換した観測信号x(n),x(n)を各々周波数領域変換部14L,14Rへ出力する。

【0033】
ここで、観測信号x(n),x(n)は、図2に示すように、楽曲信号(Lチャネル信号i(n),Rチャネル信号i(n))と、ボーカル信号d(n)とを観測した信号である。時刻nにおいて、Lチャネルマイクで観測されたLチャネルの観測信号がx(n)、Rチャネルマイクで観測されたRチャネルの観測信号がx(n)である。観測信号x(n),x(n)は、下記(1)式及び(2)式で表される。

【0034】
(n)= d(n)+i(n) (1)
(n)= d(n)+i(n) (2)
周波数領域変換部14L,14Rは、A/D変換部12L,12Rから入力された時間領域の信号である観測信号x(n),x(n)を各々周波数領域の観測信号X(l,k),X(l,k)に変換し、スペクトル比演算部16及びボーカル信号抽出部18へ出力する。具体的には、周波数領域変換部14L,14Rは、図3に示すように、所定フレーム長のフレーム内の観測信号x(l,n),x(l,n)各々を、下記(3)式及び(4)式によりフーリエ変換して、各周波数ビンのスペクトルに変換する。ここで、2Mは1フレーム当たりのサンプル数、lはフレーム番号、kは周波数ビン番号である。また、以下では、周波数領域の信号に変換された観測信号を「観測スペクトル」ともいう。

【0035】
【数1】
JP0005971646B2_000002t.gif
スペクトル比演算部16は、周波数領域変換部14L,14Rから入力された観測スペクトル|X(l,k)|と|X(l,k)|とのスペクトル比を演算し、ボーカル信号抽出部18に出力する。ボーカル信号は、(1)式及び(2)式に示すようにLチャネルの観測信号x(n)とRチャネルの観測信号x(n)とに同等に含まれる。そのため、観測スペクトルにおいても、下記(5)式及び(6)式に示すように、Lチャネルの観測スペクトル|X(l,k)|とRチャネルの観測スペクトル|X(l,k)|とに、ボーカル信号のスペクトル|D(l,k)|が同等に含まれる。なお、|I(l,k)|及び|I(l,k)|はLチャネルの楽曲信号のスペクトル及びRチャネルの楽曲信号のスペクトルである。

【0036】
|X(l,k)|= |D(l,k)|+|I(l,k)| (5)
|X(l,k)|= |D(l,k)|+|I(l,k)| (6)
このことから、Lチャネル観測スペクトルとRチャネル観測スペクトルとのスペクトル比が小さい場合には、その信号をボーカル信号と判定し、スペクトル比が大きい場合には、その信号を楽曲信号と判定することができる。そこで、スペクトル比演算部16は、Lチャネル観測スペクトルとRチャネル観測スペクトルとのスペクトル比を演算する。特許文献1及び2では、同じ周波数帯域毎に周波数領域の信号に変換された左チャネル信号と右チャネル信号との類似度を計算するが、本実施の形態では、下記(7)式により、Lチャネル観測スペクトルとRチャネル観測スペクトルとのスペクトル比A(l,k)を演算する。

【0037】
【数2】
JP0005971646B2_000003t.gif
ボーカル信号抽出部18は、スペクトル比演算部16から入力されたスペクトル比A(l,k)に基づいて、周波数領域変換部14L,14Rから入力された観測スペクトル|X(l,k)|,|X(l,k)|からボーカル信号と推定される信号(以下、「推定ボーカル信号」という)のスペクトル(以下、「推定ボーカルスペクトル」という)を抽出し、時間領域変換部20へ出力する。具体的には、スペクトル比A(l,k)に基づいて、各フレームの観測スペクトルの周波数ビン毎にボーカル信号か楽曲信号かを判定する。そして、下記(8)式に示すように、ボーカル信号と判定された場合には観測スペクトルをそのまま抽出し、楽曲信号と判定された場合にはその観測スペクトルを抑圧することで、推定ボーカルスペクトル|D^(l,k)|を抽出する。なお、特許文献2では、目的音源信号である楽曲信号を抽出しているが、ここでは、最終的な抽出対象である楽曲信号ではなく推定ボーカルスペクトルを抽出する。

【0038】
【数3】
JP0005971646B2_000004t.gif
ここで、αはLチャネルマイクとRチャネルマイクとの中央付近に定位している音源信号(ここではボーカル信号)以外の音源信号(ここでは楽曲信号)をどの程度許容するかを決定する閾値であり、0≦α≦1である。またkは楽曲信号の抑圧度を調節するための係数で、0≦k≦1である。図4に示すように、k=0の場合、楽曲信号は完全に抑圧される。なお、(8)式では観測スペクトル|X(l,k)|から推定ボーカルスペクトル|D^(l,k)|を抽出する場合を示しているが、観測スペクトル|X(l,k)|を用いてもよい。

【0039】
なお、上記処理を図4に示すように、ボーカル帯域Wに対してのみ行うようにしてもよい。Wは観測信号に含まれるボーカル信号の帯域を指定する係数である。男性ボーカルの場合ボーカル信号は低い帯域に集中し、女性ボーカルの場合ボーカル信号は高い帯域に集中する。そのことより、Wのような処理帯域を設けることで、特許文献1の手法のように観測信号の全帯域に渡って処理をするような場合と比較して、演算量を軽減することができる。また、本実施の形態では、第1信号をボーカル信号としているため、ボーカル信号の特性に応じた処理帯域Wを設定しているが、第1信号をどのような信号とするかに応じて、その信号の特性に応じた処理帯域Wを設定すればよい。

【0040】
時間領域変換部20は、ボーカル信号抽出部18から入力された推定ボーカルスペクトル|D^(l,k)|を、下記(9)式により逆フーリエ変換して、時間領域の推定ボーカル信号d^(l,n)に変換する(図5も参照)。なお、特許文献1及び2の手法と比較して、逆フーリエ変換の回数が1回でよい。

【0041】
【数4】
JP0005971646B2_000005t.gif
次いで、オーバーラップアド法により1フレーム前の後半Mサンプルを用いた時間領域推定ボーカル信号d^(l-1,n+M)と現フレームの前半Mサンプルを用いた時間領域推定ボーカル信号d^(l,n)とを足し合わせて、現フレームのMサンプル時間領域推定ボーカル信号d^(n)(1≦n≦M)を得る。オーバーラップアド法を数式で表現すると下記のように表わすことができる。

【0042】
【数5】
JP0005971646B2_000006t.gif
楽曲信号推定部22は、時間領域変換部20から入力された推定ボーカル信号d^(n)と、観測信号x(n),x(n)とに基づいて、楽曲信号と推定される信号(以下、「推定楽曲信号」という)を抽出する。本実施の形態では、AR係数の推定を用いない有色駆動源付カルマンフィルタにより、観測信号に含まれる特定の信号(ここでは楽曲信号)を抽出する。

【0043】
具体的には、観測信号を、下記(10)式に示す楽曲信号のみから構成される状態方程式、及びボーカル信号と楽曲信号とから構成される観測方程式で表される状態空間モデルに置き換える。

【0044】
【数6】
JP0005971646B2_000007t.gif
ただし、(10)式中のベクトルxp2、δp2、yp2、εp2、Φp2及びMp2は、下記(11)式でそれぞれ定義される。ベクトルxp2は所望の楽曲信号からなる2Lp2×1次の状態ベクトル、ベクトルδp2は2Lp2×1次の駆動源ベクトル、ベクトルyp2は2×1次の観測信号ベクトル、ベクトルεp2は2×1次のボーカル信号ベクトルである。行列Φp2は0及び1のみで構成される状態遷移行列、行列Mp2は2×2Lp2次の観測遷移行列である。また、図6は、この状態空間モデルを表すブロック図である。なお、2Lp2は、状態遷移行列のサイズである。また、p2は有色駆動原付カルマンフィルタが適用される状態方程式及び観測方程式の変数であることを表す添え字である。

【0045】
【数7】
JP0005971646B2_000008t.gif
(10)式における状態方程式は、推定対象(ここでは楽曲信号)のシステムを状態空間モデルで記述したものであり、内部状態つまり状態変数(ここでは、状態ベクトルxp2)の時間変化を表している。また、(10)式における観測方程式は、何らかの観測装置を通じて観測する過程を記述したものであり、観測結果(ここでは、観測信号ベクトルyp2)が、被観測量つまり入力(ここでは、状態ベクトルxp2)に依存して時間発展する様子を示している。なお、「時刻nにおける状態ベクトルxp2(n)」とは、時刻nまでの楽曲信号からなる状態ベクトルを意味する。

【0046】
(10)式に示す状態方程式及び観測方程式により、下記に示すL・Rチャネル結合型カルマンアルゴリズムを導出する。

【0047】
【数8】
JP0005971646B2_000009t.gif
上記のアルゴリズムは、初期設定の過程[Initialization]と反復の過程[Iteration]とに大別され、反復の過程では、1~5の手順を逐次繰り返す。なお、各過程及び手順の詳細な処理フローは後述し、ここでは、各過程及び手順の概略について説明する。

【0048】
初期設定の過程では、推定する楽曲信号を示す状態ベクトルの最適推定値(以下、「最適推定値ベクトル」という)の初期値x^p2(0|0)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Pp2(0|0)、ボーカル信号の分散値Rεp2(n)[i,j]、及び楽曲信号の分散値Rδp2(n)[i,j]の値を、上記のようにそれぞれ設定する。なお、楽曲信号の分散値は、観測信号の分散値からボーカル信号の分散値を差し引いたものである。また、*[i,j]は、変数名*のi行j列の要素、Iは単位行列を示す。

【0049】
また、反復の過程では、手順1において、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差である共分散行列Pp2(n+1|n)を計算する。次に、手順2において、観測信号ベクトルの推定誤差にカルマンゲイン行列をかけて、時刻nまでの情報による時刻n+1での最適推定値ベクトルx^p2(n+1|n)を加えたものが、時刻n+1までの情報によるその時刻での最適推定値ベクトルx^p2(n+1|n+1)になるようなカルマンゲイン行列Kp2(n+1)を計算する。

【0050】
次に、手順3において、時刻nまでの情報による時刻n+1での最適推定値ベクトルx^p2(n+1|n)を計算する。次に、手順4において、時刻n+1までの情報によるその時刻での最適推定値ベクトルx^p2(n+1|n+1)を計算する。手順3及び4で、状態量の更新が行われる。次に、手順5において、時刻n+1までの情報によりその時刻の共分散行列を更新する。

【0051】
楽曲信号推定部22は、上記の反復過程を所定回数繰り返して、手順4により得られた最適推定値ベクトルx^p2(n+1|n+1)の1行1列目をLチャネルの推定楽曲信号i^(n)として、(Lp2+1)行1列目をRチャネルの推定楽曲信号i^(n)として、各々をD/A変換部24L,24Rへ出力する。

【0052】
D/A変換部24L,24Rは、楽曲信号推定部22から入力されたディジタル信号である推定楽曲信号i^(n)及びi^(n)を各々アナログ信号に変換して、最終的な出力信号L,Rとして出力する。

【0053】
次に、図7を参照して、第1の実施の形態に係るステレオ信号処理装置10の作用について説明する。

【0054】
ステップ100で、A/D変換部12L,12Rが、外部から入力されたアナログ信号である観測信号x(n),x(n)を各々ディジタル信号に変換する。次に、ステップ102で、周波数領域変換部14L,14Rが、上記ステップ100でディジタル信号に変換された時間領域の信号である観測信号x(n),x(n)を各々周波数領域の信号である観測スペクトル|X(l,k)|,|X(l,k)|に変換する。

【0055】
次に、ステップ104で、スペクトル比演算部16が、上記ステップ102で変換された観測スペクトル|X(l,k)|と|X(l,k)|とのスペクトル比A(l,k)を演算する。次に、ステップ106で、ボーカル信号抽出部18が、上記ステップ104で演算されたスペクトル比A(l,k)が予め定めた閾値αより大きいか否かを判定する。A(l,k)>αの場合には、ステップ108へ移行し、その信号を楽曲信号とみなして、楽曲信号の抑圧度を調節するための係数k(0≦k≦1)を例えばk=0として観測スペクトル|X(l,k)|または|X(l,k)|に乗算することにより楽曲信号を抑圧する。一方、A(l,k)≦αの場合には、ステップ110へ移行し、その信号をボーカル信号とみなして、例えばk=1として、観測スペクトル|X(l,k)|または|X(l,k)|を推定ボーカルスペクトル|D^(l,k)|として抽出する。

【0056】
次に、ステップ112で、時間領域変換部20は、上記ステップ108及び110の処理を経て抽出された推定ボーカルスペクトル|D^(l,k)|を、(9)式により逆フーリエ変換して、時間領域の推定ボーカル信号d^(l,n)に変換する。次いで、オーバーラップアド法により1フレーム前の後半Mサンプルを用いた時間領域推定ボーカル信号d^(l-1,n+M)と現フレームの前半Mサンプルを用いた時間領域推定ボーカル信号d^(l,n)とを足し合わせて、現フレームのMサンプル時間領域推定ボーカル信号d^(n)(1≦n≦M)を得る。

【0057】
次に、ステップ114で、楽曲信号推定部22が、推定ボーカル信号d^(n)と、観測信号x(n),x(n)とに基づいて、楽曲信号推定処理を実行することにより、推定楽曲信号を抽出する。楽曲信号推定処理は、図8に示す有色駆動原付カルマンアルゴリズムに相当する。ここで、図8を参照して、有色駆動原付カルマンアルゴリズムのフローについて説明する。

【0058】
ステップ1140で、(10)式に示す状態方程式及び観測方程式により状態空間モデルを定義し、最適推定値ベクトルの初期値x^p2(0|0)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Pp2(0|0)、ボーカル信号の分散値Rεp2(n) [i,j]、及び楽曲信号の分散値Rδp2(n)[i,j]を、上述の初期設定の過程[Initialization]に示した初期状態に設定する。また、時刻を示す変数nを0に設定する。

【0059】
次に、ステップ1142で、上記ステップ1140で定義した状態空間モデルにおける状態遷移行列Φp2、設定した状態ベクトルの共分散行列の初期値Pp2(0|0)(n=0の場合)、または1時刻前に後述するステップ1150で更新された共分散行列Pp2(n|n) (n≧1の場合)、及び楽曲信号の分散値Rδp2(n+1)[i,j]の値を用いて、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差である共分散行列Pp2(n+1|n)を計算する(上述の反復の過程[Iteration]の手順1)。

【0060】
次に、ステップ1144で、上記ステップ1142で計算した共分散行列Pp2(n+1|n)、上記ステップ1140で定義した状態空間モデルにおける観測遷移行列Mp2、及びボーカル信号の分散値Rεp2(n) [i,j]を用いて、カルマンゲイン行列Kp2(n+1)を計算する(同手順2)。

【0061】
次に、ステップ1146で、状態遷移行列Φp2、及び上記ステップ1140で設定した最適推定値ベクトルの初期値x^p2(0|0) (n=0の場合)、または1時刻前に本ステップで得られた最適推定値ベクトルx^p2(n|n) (n≧1の場合)を用いて、時刻nまでの情報による時刻n+1での最適推定値ベクトルx^p2(n+1|n)を計算する(同手順3)。そして、計算した最適推定値ベクトルx^p2(n+1|n)、上記ステップ1144で計算したカルマンゲイン行列Kp2(n+1)、観測ベクトルyp2(n+1)、及び観測遷移行列Mp2を用いて、時刻n+1までの情報によるその時刻での最適推定値ベクトルx^p2(n+1|n+1)を計算する(同手順4)。

【0062】
次に、ステップ1148で、処理を終了するか否かを判定する。この判定は、時刻nが所定のサンプル数Nに達した場合を処理終了と判定してもよいし、サンプルがなくなった時点で処理終了と判定してもよい。処理を終了しない場合には、ステップ1150へ移行し、処理を終了する場合には、ステップ1154へ移行する。

【0063】
ステップ1150では、単位行列I、カルマンゲイン行列Kp2(n+1)、観測遷移行列Mp2、及び上記ステップ1142で計算された共分散行列Pp2(n+1|n)を用いて、時刻n+1までの情報によるその時刻での共分散行列Pp2(n+1|n+1)を更新する。次に、ステップ1152で、nを1インクリメントして、ステップ1142へ戻る。

【0064】
一方、ステップ1154では、上記ステップ1146で計算された最適推定値ベクトルx^p2(n+1|n+1) の1行1列目をLチャネルの推定楽曲信号i^(n)として、(Lp2+1)行1列目をRチャネルの推定楽曲信号i^(n)として出力し、図7の処理へリターンする。

【0065】
次に、ステップ116で、D/A変換部24L,24Rが、上記ステップ114の処理により出力されたディジタル信号である推定楽曲信号i^(n)及びi^(n)を各々アナログ信号に変換して、最終的な出力信号L,Rとして出力し、処理を終了する。

【0066】
以上説明したように、第1の実施の形態のステレオ信号処理装置によれば、Lチャネル及びRチャネルの観測スペクトルの比に基づいて抽出した推定ボーカル信号と観測信号とに、有色駆動源付カルマンフィルタを適用して推定楽曲信号を抽出するため、ステレオ感を損なわず再現性の良いステレオ信号を出力することができる。

【0067】
また、抽出したボーカルスペクトルを時間領域の信号に変換するための逆フーリエ変換が1回でよい。
<第2の実施の形態>
第2の実施の形態では、本発明の第1信号の一例を、例えばLチャネルマイクとRチャネルマイクとの中央付近を音源位置とするボーカル信号とし、本発明の第2信号の一例を、例えば楽器等を音源とする楽曲信号とする場合について説明する。

【0068】
第2の実施の形態では、ボーカル信号または楽曲信号を選択的に抽出する場合について説明する。なお、第2の実施の形態のステレオ信号処理装置について、第1の実施の形態のステレオ信号処理装置10と同一の部分については、同一符号を付して詳細な説明を省略する。

【0069】
図9に示すように、第2の実施の形態に係るステレオ信号処理装置210は、A/D変換部12L,12Rと、周波数領域変換部14L,14Rと、スペクトル比演算部16と、ボーカル信号抽出部18と、時間領域変換部20と、特定信号推定部222と、D/A変換部24L,24Rとを含んで構成されている。

【0070】
特定信号推定部222は、楽曲信号またはボーカル信号のいずれを抽出するかを選択するための選択信号に従って、時間領域変換部20から入力された推定ボーカル信号d^(n)と、観測信号x(n),x(n)とに基づいて、推定楽曲信号または推定ボーカル信号を抽出する。選択信号が楽曲信号を抽出することを示すものである場合には、特定信号推定部222は、第1の実施の形態の楽曲信号推定部22と同様の処理により、推定楽曲信号を抽出する。

【0071】
一方、選択信号がボーカル信号を抽出することを示すものである場合には、下記に示すL・Rチャネル結合型有色駆動原付カルマンアルゴリズムにより、推定ボーカル信号を抽出する。なお、初期設定の過程[Initialization]については、第1の実施の形態と同様であるため記載を省略する。

【0072】
【数9】
JP0005971646B2_000010t.gif
推定ボーカル信号を抽出する場合には、第1の実施の形態における反復の過程[Iteration]の手順1の楽曲信号の分散値Rδp2(n+1) [i,j]と、手順2のボーカル信号の分散値Rεp2(n+1) [i,j]とを入れ替える。これにより、手順4において計算される最適推定値ベクトルx^p2(n+1|n+1)の1行1列目または(Lp2+1)行1列目を、推定ボーカル信号d'^p2(n)として得ることができる。ここで得られる推定ボーカル信号は、ミュージカルノイズのない信号となる。

【0073】
次に、図10を参照して、第2の実施の形態に係るステレオ信号処理装置10の作用について説明する。なお、第1の実施の形態における処理と同一の処理については、同一符号を付して詳細な説明を省略する。

【0074】
ステップ100~112を経て、スペクトル比に基づいて抽出された推定ボーカルスペクトル|D^(l,k)|を、時間領域の推定ボーカル信号d^(n)に変換する。

【0075】
次に、ステップ200で、特定信号推定部222が、選択信号に基づいて楽曲信号またはボーカル信号のいずれを抽出するかを判定する。楽曲信号を抽出すると判定された場合には、ステップ114へ移行して、楽曲信号推定部22が、推定ボーカル信号d^(n)と、観測信号x(n),x(n)とに基づいて、楽曲信号推定処理を実行することにより、推定楽曲信号を抽出する。

【0076】
一方、ボーカル信号を抽出すると判定された場合には、ステップ202へ移行し、楽曲信号推定部22が、推定ボーカル信号d^(n)と、観測信号x(n),x(n)とに基づいて、ボーカル信号推定処理を実行することにより、推定ボーカル信号を抽出する。

【0077】
ボーカル信号推定処理は、第1の実施の形態と同様に、図8に示す有色駆動原付カルマンアルゴリズムに相当する。ここでは、楽曲信号推定処理として実行される有色駆動原付カルマンアルゴリズムのフローと異なる処理について説明する。

【0078】
ボーカル信号推定処理として実行されるカルマンアルゴリズムでは、ステップ1142で、楽曲信号の分散値Rδp2(n+1) [i,j]を、ボーカル信号の分散値Rεp2(n) [i,j]に入れ替えて、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差である共分散行列Pp2(n+1|n)を計算する(上述の反復の過程[Iteration]の手順1)。

【0079】
また、ステップ1144で、ボーカル信号の分散値Rεp2(n) [i,j]を、楽曲信号の分散値Rδp2(n+1)に入れ替えて、カルマンゲイン行列Kp2(n+1)を計算する(同手順2)。

【0080】
また、ステップ1154では、上記ステップ1146で計算された最適推定値ベクトルx^p2(n+1|n+1) の1行1列目または(Lp2+1)行1列目を推定ボーカル信号d'^p2(n)として出力し、図10の処理へリターンする。ここで得られる推定ボーカル信号は、ミュージカルノイズのない信号となる。

【0081】
以上説明したように、第2の実施の形態のステレオ信号処理装置によれば、第1の実施の形態の効果に加え、所望の信号(ボーカル信号または楽曲信号)を選択的に抽出することができる。
<第3の実施の形態>
第3の実施の形態では、本発明の第1信号の一例を、例えばLチャネルマイクとRチャネルマイクとの中央付近を音源位置とするボーカル信号(音声信号)とし、本発明の第2信号の一例を、例えば白色雑音に近い雑音信号とする場合について説明する。

【0082】
第3の実施の形態では、図2に示すような状況において観測された観測信号から、雑音信号を抑圧する場合について説明する。なお、第3の実施の形態のステレオ信号処理装置について、第1の実施の形態のステレオ信号処理装置10と同一の部分については、同一符号を付して詳細な説明を省略する。

【0083】
図11に示すように、第3の実施の形態に係るステレオ信号処理装置310は、A/D変換部12L,12Rと、自己相関処理部26L,26Rと、ピーク値検出部28L,28Rと、雑音判定部30L,30Rと、雑音抑圧部322と、D/A変換部24L,24Rとを含んで構成されている。

【0084】
自己相関処理部26L,26Rは、A/D変換部12L,12Rから入力された時間領域の信号である観測信号x(n),x(n)各々の自己相関関数を計算し、ピーク値検出部28L,28Rへ各々出力する。具体的には、自己相関処理部26L,26Rは、図12に示すように、観測信号をLサンプルでフレーム分割する。lフレーム目のi番目のサンプルに関する観測信号x(l,i),x(l,i)は、下記(12)式及び(13)式で表される。

【0085】
(l,i)= d(l,i)+i(l,i) (12)
(l,i)= d(l,i)+i(l,i) (13)
自己相関処理部26L,26Rは、遅れ時間をτとして、下記(14)式及び(15)式により、Lチャネル及びRチャネル観測信号各々の自己相関関数RxL(l,τ), RxR(l,τ)(τ=0,・・・,L-1)を計算する。

【0086】
【数10】
JP0005971646B2_000011t.gif
ピーク値検出部28L,28Rは、自己相関処理部26L,26Rから各々入力された自己相関関数RxL(l,τ),RxR(l,τ)におけるピーク値を検出し、各々雑音判定部30L,30Rへ出力する。具体的には、自己相関関数RxL(l,τ),RxR(l,τ)において、τ=0以外におけるピーク値を、下記(16)式及び(17)式により検出する(図13も参照)。なお、max{*}は、関数*の最大値を見つける処理である。

【0087】
【数11】
JP0005971646B2_000012t.gif
雑音判定部30L,30Rは、ピーク値検出部28L,28Rから入力されたピーク値p(l),p(l)各々に基づいて、フレーム毎に雑音信号と推定される信号(以下、「推定雑音信号」という)を各々判定して、雑音抑圧部322へ出力する。具体的には、下記(18)式及び(19)式に従って、ピーク値p(l),p(l)各々と閾値σとを比較し、ピーク値が閾値σより大きい場合には、フレームlをボーカル信号(音声信号)と判定し、1フレーム前の推定雑音信号をコピーして、フレームlの推定雑音信号i^(l,i), i^(l,i)とする。一方、ピーク値が閾値σより小さい場合には、フレームlを雑音信号と判定し、そのまま推定雑音信号i^(l,i) , i^(l,i)とする。なお、閾値σは観測信号のSNRによって決まる値である。

【0088】
【数12】
JP0005971646B2_000013t.gif
雑音抑圧部322は、雑音判定部30L,30Rから入力された推定雑音信号i^(l,i), i^(l,i)と、観測信号x(n),x(n)とに基づいて、雑音信号を抑圧する。具体的には、下記に示すL・Rチャネル結合型有色駆動原付カルマンアルゴリズムにより、雑音信号を抑圧する。なお、反復の過程[Iteration]については、第1の実施の形態と同様であるため記載を省略する。

【0089】
【数13】
JP0005971646B2_000014t.gif
初期設定の過程では、最適推定値ベクトルの初期値x^p2(0|0)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Pp2(0|0)、雑音信号の分散値行列Rδp2(n)のi行j列の要素Rδp2(n)[i,j]、及びボーカル信号の分散値行列Rεp2(n)の値を、上記のようにそれぞれ設定する。なお、ボーカル信号の分散値は、観測信号の分散値から雑音信号の分散値を差し引いたものである。以下、第1の実施の形態と同様に、反復の過程を実行し、反復の過程の手順4において計算される最適推定値ベクトルx^p2(n+1|n+1)の1行1列目または(Lp2+1)行1列目を、推定ボーカル信号d^(n)として得ることができる。すなわち、観測信号において雑音信号が抑圧された信号が得られる。

【0090】
次に、図14を参照して、第3の実施の形態に係るステレオ信号処理装置310の作用について説明する。なお、第1の実施の形態における処理と同一の処理については、同一符号を付して詳細な説明を省略する。

【0091】
ステップ100で、A/D変換部12L,12Rが、観測信号x(n),x(n)を各々ディジタル信号に変換する。次に、ステップ300で、自己相関処理部26L,26Rが、遅れ時間をτとして、(14)式及び(15)式により、Lチャネル及びRチャネル各々の自己相関関数RxL(l,τ), RxR(l,τ)(τ=0,・・・,L-1)を計算する。

【0092】
次に、ステップ302で、ピーク値検出部28L,28Rが、上記ステップ300で計算された自己相関関数RxL(l,τ),RxR(l,τ)各々のτ=0以外におけるピーク値p(l),p(l)を検出する。

【0093】
次に、ステップ304で、雑音判定部30Lが、ピーク値p(l)が閾値σより大きいか否かを判定する。p(l)>σの場合には、ステップ306へ移行し、フレームlをボーカル信号と判定し、1フレーム前の推定雑音信号をコピーして、フレームlの推定雑音信号i^(l,i)とする。一方、p(l)≦σの場合には、ステップ308へ移行し、フレームlを雑音信号と判定し、そのまま推定雑音信号i^(l,i)とする。

【0094】
Rチャネルについても同様に、雑音判定部30Rが、ステップ304~308を実行して、フレームlの推定雑音信号i^(l,i)を判定する。

【0095】
次に、ステップ310で、雑音抑圧部322が、推定雑音信号i^(l,i), i^(l,i)と、観測信号x(n),x(n)とに基づいて、雑音抑圧処理を実行することにより、雑音信号を抑圧する。

【0096】
雑音抑圧処理は、第1の実施の形態と同様に、図8に示す有色駆動原付カルマンアルゴリズムに相当する。ここでは、第1の実施の形態の楽曲信号推定処理として実行される有色駆動原付カルマンアルゴリズムのフローと異なる処理について説明する。

【0097】
雑音抑圧処理として実行される有色駆動原付カルマンアルゴリズムでは、ステップ1140で、最適推定値ベクトルの初期値x^p2(0|0)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Pp2(0|0)、雑音信号の分散値行列Rδp2(n)のi行j列の要素Rδp2(n)[i,j]、及びボーカル信号の分散値行列Rεp2(n)の値を、上記のようにそれぞれ設定する。

【0098】
また、ステップ1154では、上記ステップ1146で計算された最適推定値ベクトルx^p2(n+1|n+1) の1行1列目または(Lp2+1)行1列目を推定ボーカル信号d^(n)、すなわち、観測信号において雑音信号が抑圧された推定音声信号として出力し、図14の処理へリターンする。

【0099】
以上説明したように、第3の実施の形態のステレオ信号処理装置によれば、第1の実施の形態の効果に加え、自己相関を用いて推定された推定雑音信号を用いて有色駆動源型のカルマンフィルタを適用することにより、白色性の雑音に対して抑圧効果を高めることができる。また、時間領域の信号処理のみであるため、演算量を削減できる。
<第4の実施の形態>
第4の実施の形態では、本発明の第1信号の一例を、例えばLチャネルマイクとRチャネルマイクとの中央付近を音源位置とするボーカル信号(音声信号)とし、本発明の第2信号の一例を、例えば雑音信号とする場合について説明する。

【0100】
第4の実施の形態について説明する。第4の実施の形態では、図2に示すような状況において観測された観測信号から、雑音信号を抑圧する場合について説明する。なお、第4の実施の形態のステレオ信号処理装置について、第1の実施の形態のステレオ信号処理装置10及び第3の実施の形態のステレオ信号処理装置310と同一の部分については、同一符号を付して詳細な説明を省略する。

【0101】
図15に示すように、第4の実施の形態に係るステレオ信号処理装置410は、A/D変換部12L,12Rと、周波数領域変換部14L,14Rと、スペクトル密度演算部32L,32Rと、スペクトルエントロピー演算部34L,34Rと、雑音判定部430L,430Rと、時間領域変換部20L,20Rと、雑音抑圧部322と、D/A変換部24L,24Rとを含んで構成されている。

【0102】
スペクトル密度演算部32L,32Rは、周波数領域変換部14L,14Rから入力された観測スペクトル|X(l,k)|,|X(l,k)|に基づいて、下記(20)式及び(21)式により、Lチャネル及びRチャネル観測信号各々のパワースペクトル密度P(l,k), P(l,k)を演算し、スペクトルエントロピー演算部34L,34Rへ入力する。lはフレーム番号、kは周波数ビン番号である。

【0103】
【数14】
JP0005971646B2_000015t.gif
ここで、ボーカル信号(音声信号)のスペクトルは、250~4000Hzの周波数帯域内に存在することを考慮し、k≦250Hzまたはk≧4000Hzの場合には、|X(l,k)|=|X(l,k)|=0とする。

【0104】
スペクトルエントロピー演算部34L,34Rは、スペクトル密度演算部32L,32Rから入力されたスペクトル密度P(l,k),P(l,k)に基づいて、下記(22)式及び(23)式により、Lチャネル及びRチャネル観測信号各々のスペクトルエントロピーH(l), H(l)を演算し、雑音判定部430L,430Rへ入力する。

【0105】
【数15】
JP0005971646B2_000016t.gif
雑音判定部430L,430Rは、スペクトルエントロピー演算部34L,34Rから入力されたスペクトルエントロピーH(l), H(l)各々に基づいて、フレーム毎に推定雑音信号のスペクトル(以下、「推定雑音スペクトル」という)を各々判定して、時間領域変換部20L,20Rへ出力する。具体的には、下記(24)式及び(25)式に従って、スペクトルエントロピーH(l), H(l)各々と閾値σとを比較し、スペクトルエントロピーが閾値σより小さい場合には、フレームlをボーカル信号(音声信号)と判定し、1フレーム前の推定雑音スペクトルをコピーして、フレームlの推定雑音スペクトル|I^(l,k)|,|I^(l,k)|とする。一方、スペクトルエントロピーが閾値σより大きい場合には、フレームlを雑音信号と判定し、そのまま推定雑音スペクトル|I^(l,k)|,|I^(l,k)|とする。

【0106】
【数16】
JP0005971646B2_000017t.gif
ここで、閾値σは以下のようにして決定する。まずNフレーム分のスペクトルエントロピーの平均値を用いて閾値σ’(l)を下式のように導出する。

【0107】
【数17】
JP0005971646B2_000018t.gif
次に閾値σ’(l)と現フレームのスペクトルエントロピーとを比較し、閾値σ’(l)よりも現フレームのスペクトルエントロピーの方が小さい場合は閾値σ’(l)をα倍する。

【0108】
【数18】
JP0005971646B2_000019t.gif
そして過去3フレームが連続して音声信号か否かを判定した後に最終的な閾値σ(l)を得る。

【0109】
【数19】
JP0005971646B2_000020t.gif
もし音声信号が連続していない場合は、過去3フレーム雑音信号が連続したか否かを判定した後に最終的な閾値σ(l)を得る。

【0110】
【数20】
JP0005971646B2_000021t.gif
時間領域変換部20L,20Rは、雑音判定部430L,430Rから入力された周波数領域の信号である推定雑音スペクトル|I^(l,k)|,|I^(l,k)|を逆フーリエ変換して、時間領域の信号である推定雑音信号i^(l,n),i^(l,n)に変換する。次いで、オーバーラップアド法を用いて1フレーム前の後半Mサンプルを用いた時間領域推定楽曲信号i^(l-1,n+M),i^(l-1,n+M)と現フレームの前半Mサンプルを用いた時間領域推定楽曲信号i^(l,n),i^(l,n)とを足し合わせて、現フレームのMサンプル時間領域推定楽曲信号i^(n),i^(n)(1≦n≦M )を得る。

【0111】
次に、図16を参照して、第4の実施の形態に係るステレオ信号処理装置410の作用について説明する。なお、第1の実施の形態における処理と同一の処理については、同一符号を付して詳細な説明を省略する。

【0112】
ステップ100で、A/D変換部12L,12Rが、観測信号x(n),x(n)を各々ディジタル信号に変換し、次に、ステップ102で、周波数領域変換部14L,14Rが、周波数領域の信号である観測スペクトル|X(l,k)|,|X(l,k)|に変換する。

【0113】
次に、ステップ400で、スペクトル密度演算部32L,32R、観測スペクトル|X(l,k)|,|X(l,k)|に基づいて、Lチャネル及びRチャネル観測信号各々のパワースペクトル密度P(l,k), P(l,k)を演算する。

【0114】
次に、ステップ402で、スペクトルエントロピー演算部34L,34Rが、上記ステップ400で演算されたパワースペクトル密度P(l,k), P(l,k)に基づいて、Lチャネル及びRチャネル観測信号各々のスペクトルエントロピーH(l), H(l)を演算する。

【0115】
次に、ステップ404で、雑音判定部430Lが、上述のように閾値σを決定し、決定した閾値σを用いて、スペクトルエントロピーH(l)が閾値σより小さいか否かを判定する。H(l)<σの場合には、ステップ406へ移行し、フレームlをボーカル信号と判定し、1フレーム前の推定雑音スペクトルをコピーして、フレームlの推定雑音スペクトル|I^(l,k)|とする。一方、H(l)≧σの場合には、ステップ408へ移行し、フレームlを雑音信号と判定し、そのまま推定雑音スペクトル|I^(l,k)|とする。

【0116】
Rチャネルについても同様に、雑音判定部430Rが、ステップ404~408を実行して、フレームlの推定雑音スペクトル|I^(l,k)|を判定する。

【0117】
次に、ステップ112で、時間領域変換部20L,20Rが、推定雑音スペクトル|I^(l,k)|,|I^(l,k)|を、フーリエ逆変換を用いて時間領域の信号である推定雑音信号i^(l,n),i^(l,n)に変換する。次いで、オーバーラップアド法を用いて1フレーム前の後半Mサンプルを用いた時間領域推定楽曲信号i^(l-1,n+M),i^(l-1,n+M)と現フレームの前半Mサンプルを用いた時間領域推定楽曲信号i^(l,n),i^(l,n)とを足し合わせて、現フレームのMサンプル時間領域推定楽曲信号i^(n),i^(n)(1≦n≦M )を得る。

【0118】
次に、ステップ410で、雑音抑圧部322が、推定雑音信号i^(n), i^(n)と、観測信号x(n),x(n)とに基づいて、雑音抑圧処理を実行することにより、雑音信号を抑圧する。雑音抑圧処理は、第3の実施の形態と同様である。

【0119】
以上説明したように、第4の実施の形態のステレオ信号処理装置によれば、第1の実施の形態の効果に加え、スペクトルエントロピーを用いて推定された推定雑音信号を用いて有色駆動源型のカルマンフィルタを適用することにより、白色性及び有色性の様々な雑音に対して抑圧効果を高めることができる。

【0120】
なお、上記第1~第4の実施の形態で用いた有色駆動源付カルマンフィルタの演算量を軽減した演算量軽減型有色駆動源付カルマンフィルタを用いてもよい。演算量軽減型有色駆動源付カルマンフィルタでは、所望の信号の推定に必要な処理だけを取り出す。

【0121】
詳細には、図17に示すように、手順4の状態量の更新において、Lチャネル及びRチャネルの推定楽曲信号を示す部分のみ取り出すと、手順2におけるカルマンゲイン行列の4つの要素が必要であることがわかる。そこで、図18に示すように、この必要な4つの要素の部分のみを取り出すと、手順1における共分散行列の4つの要素が必要であることがわかる。そこで、図19に示すように、この必要な4つの要素の部分のみを取り出すと、楽曲信号の分散値が必要であることがわかる。

【0122】
以上をまとめると、演算量軽減型有色駆動源付カルマンアルゴリズムは、下記に示すとおりとなり、ステップが減ったことにより演算量が軽減できる。なお、p3は演算量軽減型有色駆動原付カルマンフィルタが適用される状態方程式及び観測方程式の変数であることを表す添え字である。

【0123】
【数21】
JP0005971646B2_000022t.gif
ここで、第1の実施の形態における楽曲信号推定処理(図7のステップ114)に、上記の演算量軽減型有色駆動原付カルマンフィルタを適用した場合に実行される演算量軽減型有色駆動原付カルマンアルゴリズムのフローについて、図20を参照して説明する。

【0124】
ステップ2140で、(10)式に示す状態方程式及び観測方程式により状態空間モデルを定義し、最適推定値ベクトルの初期値x^p3(0|0)、状態ベクトルを推定した場合の誤差である共分散行列の初期値Pp3(0|0)、ボーカル信号の分散値Rεp3(n) [i,j]、及び楽曲信号の分散値Rδp3(n)[i,j]を、上述の初期設定の過程[Initialization]に示した初期状態に設定する。また、時刻を示す変数nを0に設定する。

【0125】
次に、ステップ2142で、楽曲信号の分散値Rδp3(n+1)[i,j]の値を用いて、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差である共分散行列Pp3(n+1|n)を計算する(上述の反復の過程[Iteration]の手順1)。

【0126】
次に、ステップ2144で、上記ステップ2142で計算した共分散行列Pp3(n+1|n)、及びボーカル信号の分散値Rεp3(n) [i,j]を用いて、カルマンゲイン行列Kp3(n+1)を計算する(同手順2)。

【0127】
次に、ステップ2146で、上記ステップ2144で計算したカルマンゲイン行列Kp3(n+1)、及び観測ベクトルyp3(n+1)を用いて、時刻n+1までの情報によるその時刻での最適推定値ベクトルx^p3(n+1|n+1)を計算する(同手順3)。

【0128】
次に、ステップ2148で、処理を終了するか否かを判定する。この判定は、時刻nが所定のサンプル数Nに達した場合を処理終了と判定してもよいし、サンプルがなくなった時点で処理終了と判定してもよい。処理を終了しない場合には、ステップ2152へ移行し、nを1インクリメントして、ステップ1142へ戻る。処理を終了する場合には、ステップ2154へ移行し、上記ステップ2146で計算された最適推定値ベクトルx^p3(n+1|n+1) の1行1列目をLチャネルの推定楽曲信号i^(n)として、(Lp3+1)行1列目をRチャネルの推定楽曲信号i^(n)として出力し、図7の処理へリターンする。

【0129】
また、第3及び第4の実施の形態では、雑音信号を抑圧する場合について説明したが、第2の実施の形態と同様に、有色駆動原付カルマンアルゴリズムにおいて、雑音信号の分散値とボーカル信号の分散値とを入れ替えることにより、ボーカル信号を抑圧した信号、すなわち推定雑音信号を抽出するようにしてもよい。具体的には、有色駆動原付カルマンアルゴリズムの反復の過程[Iteration]の手順1において、雑音信号の分散値Rδp2(n+1) [i,j]を、ボーカル信号の分散値Rεp2(n) [i,j]とを入れ替えて、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差である共分散行列Pp2(n+1|n)を計算する。また、同手順2において、ボーカル信号の分散値Rεp2(n) [i,j]を、雑音信号の分散値Rδp2(n+1) [i,j]に入れ替えて、カルマンゲイン行列Kp2(n+1)を計算する。そして、同手順4において計算される最適推定値ベクトルx^p2(n+1|n+1)の1行1列目及び(Lp2+1)行1列目を、推定雑音信号i'^(l,i), i'^(l,i)として得ることができる。

【0130】
また、上記の演算量軽減型カルマンアルゴリズムを第1の実施の形態に適用した場合(または第3及び第4の実施の形態に適用した場合)においても、第2の実施の形態と同様に、楽曲信号(または雑音信号)の分散値とボーカル信号の分散値とを入れ替えることにより、ボーカル信号を抑圧した信号、すなわち推定楽曲信号(または推定雑音信号)を抽出することができる。具体的には、演算量軽減型有色駆動原付カルマンアルゴリズムの反復の過程[Iteration]の手順1において、楽曲信号(または雑音信号)の分散値Rδp3(n+1) [i,j]を、ボーカル信号の分散値Rεp3(n) [i,j]と入れ替えて、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差である共分散行列Pp3(n+1|n)を計算する。また、同手順2において、ボーカル信号の分散値Rεp3(n) [i,j]を、楽曲信号(または雑音信号)の分散値Rδp3(n+1) [i,j]に入れ替えて、カルマンゲイン行列Kp3(n+1)を計算する。そして、同手順3において計算される最適推定値ベクトルx^p3(n+1|n+1)の1行1列目及び(Lp3+1)行1列目を、推定雑音信号i'^(l,i), i'^(l,i)として得ることができる。

【0131】
また、上記各実施の形態は、適宜組み合わせて適用可能である。例えば、第1または第2の実施の形態により所望の信号を抽出した上で、第3または第4の実施の形態により雑音を抑圧するようにすることができる。

【0132】
また、第1及び第2の実施の形態では、第1信号をボーカル信号、第2信号を楽曲信号とする場合について、第3及び第4の実施の形態では、第1信号をボーカル信号(音声信号)、第2信号を雑音信号とする場合について説明したが、これに限定されない。複数チャネルの入力信号において、第1信号各はチャネル間で共通に含まれる信号であり、第2信号はチャネル毎に異なる信号であればよい。

【0133】
また、上記実施の形態では、各部をハードウエアにより構成する場合について説明したが、コンピュータに各部の処理を実行させるためのプログラムとすることもできる。プログラムは、予め装置にインストールされていてもよいし、コンピュータ読み取り可能な記録媒体に格納して提供してもよいし、ネットワークを介して提供してもよい。
【符号の説明】
【0134】
10、210、310、410 ステレオ信号処理装置
12L,12R A/D変換部
14L,14R 周波数領域変換部
16 スペクトル比演算部
18 ボーカル信号抽出部
20、 20L,20R 時間領域変換部
22 楽曲信号推定部
24L,24R D/A変換部
26L,26R 自己相関処理部
28L,28R ピーク値検出部
30L,30R、430L,430R 雑音判定部
32L,32R スペクトル密度演算部
34L,34R スペクトルエントロピー演算部
222 特定信号推定部
322 雑音抑圧部
図面
【図1】
0
【図2】
1
【図6】
2
【図7】
3
【図8】
4
【図9】
5
【図10】
6
【図11】
7
【図12】
8
【図13】
9
【図14】
10
【図15】
11
【図16】
12
【図3】
13
【図4】
14
【図5】
15
【図17】
16
【図18】
17
【図19】
18
【図20】
19