TOP > 国内特許検索 > オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム > 明細書

明細書 :オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム

発行国 日本国特許庁(JP)
公報種別 再公表特許(A1)
発行日 平成31年3月7日(2019.3.7)
発明の名称または考案の名称 オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
国際特許分類 H04S   7/00        (2006.01)
FI H04S 7/00 300
国際予備審査の請求 未請求
全頁数 26
出願番号 特願2018-514561 (P2018-514561)
国際出願番号 PCT/JP2017/016019
国際公開番号 WO2017/188141
国際出願日 平成29年4月21日(2017.4.21)
国際公開日 平成29年11月2日(2017.11.2)
優先権出願番号 2016089417
優先日 平成28年4月27日(2016.4.27)
優先権主張国 日本国(JP)
指定国 AP(BW , GH , GM , KE , LR , LS , MW , MZ , NA , RW , SD , SL , ST , SZ , TZ , UG , ZM , ZW) , EA(AM , AZ , BY , KG , KZ , RU , TJ , TM) , EP(AL , AT , BE , BG , CH , CY , CZ , DE , DK , EE , ES , FI , FR , GB , GR , HR , HU , IE , IS , IT , LT , LU , LV , MC , MK , MT , NL , NO , PL , PT , RO , RS , SE , SI , SK , SM , TR) , OA(BF , BJ , CF , CG , CI , CM , GA , GN , GQ , GW , KM , ML , MR , NE , SN , TD , TG) , AE , AG , AL , AM , AO , AT , AU , AZ , BA , BB , BG , BH , BN , BR , BW , BY , BZ , CA , CH , CL , CN , CO , CR , CU , CZ , DE , DJ , DK , DM , DO , DZ , EC , EE , EG , ES , FI , GB , GD , GE , GH , GM , GT , HN , HR , HU , ID , IL , IN , IR , IS , JP , KE , KG , KH , KN , KP , KR , KW , KZ , LA , LC , LK , LR , LS , LU , LY , MA , MD , ME , MG , MK , MN , MW , MX , MY , MZ , NA , NG , NI , NO , NZ , OM , PA , PE , PG , PH , PL , PT , QA , RO , RS , RU , RW , SA , SC , SD , SE , SG , SK , SL , SM , ST , SV , SY , TH , TJ , TM , TN , TR , TT , TZ
発明者または考案者 【氏名】安藤 彰男
出願人 【識別番号】305060567
【氏名又は名称】国立大学法人富山大学
個別代理人の代理人 【識別番号】100088155、【弁理士】、【氏名又は名称】長谷川 芳樹
【識別番号】100113435、【弁理士】、【氏名又は名称】黒木 義樹
【識別番号】100144440、【弁理士】、【氏名又は名称】保坂 一之
審査請求 未請求
テーマコード 5D162
Fターム 5D162AA05
5D162BA07
5D162CA27
5D162CB12
5D162DA28
5D162EG02
要約 一実施形態に係るオーディオ信号処理装置は、複数のチャネルのオーディオ信号を受け付ける受付部と、各チャネルのオーディオ信号をコヒーレント成分とフィールド成分とに分割する分割部と、各チャネルのコヒーレント成分およびフィールド成分を出力する出力部とを備える。分割処理では、対象チャネル以外のチャネルのオーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルのオーディオ信号との相関が最も高い推定信号が該対象チャネルのコヒーレント成分として抽出される。そして、対象チャネルのオーディオ信号およびコヒーレント成分の差分がフィールド成分として抽出される。
特許請求の範囲 【請求項1】
複数のチャネルのオーディオ信号を受け付ける受付部と、
前記オーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する分割部であって、前記分割処理が、
前記分割処理の対象となる一つの前記チャネルを対象チャネルとした場合に、該対象チャネル以外のチャネルの前記オーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルの前記オーディオ信号との相関が最も高い推定信号を該対象チャネルの前記コヒーレント成分として抽出するステップと、
前記対象チャネルの前記オーディオ信号と該対象チャネルの前記コヒーレント成分との差分を該対象チャネルの前記フィールド成分として抽出するステップと
を含む、該分割部と、
前記分割部により抽出された各チャネルの前記コヒーレント成分および前記フィールド成分を出力する出力部と
を備えるオーディオ信号処理装置。
【請求項2】
前記分割処理が、
窓関数を用いてオーディオ信号を複数のフレームに区切る処理を各チャネルについて実行するステップと、
連続する少なくとも二つの前記フレームを一つのブロックにまとめる処理を前記複数のフレームの全体に対して実行することで複数の前記ブロックを生成する処理を各チャネルについて実行するステップと、
前記ブロックのそれぞれにおいて前記対象チャネルの前記コヒーレント成分を抽出するステップと
を含む、
請求項1に記載のオーディオ信号処理装置。
【請求項3】
前記分割部が、
各チャネルのオーディオ信号を複数のサブバンドに分割することで、各チャネルについて複数のサブバンド信号を生成するステップと、
前記複数のサブバンドのそれぞれにおいて前記対象チャネルのコヒーレント成分を抽出するステップと、
前記複数のサブバンドにおけるコヒーレント成分を加算することで前記対象チャネルのコヒーレント成分を抽出するステップと
を含む、
請求項1または2に記載のオーディオ信号処理装置。
【請求項4】
オーディオ信号処理装置が、複数のチャネルのオーディオ信号を受け付ける受付ステップと、
前記オーディオ信号処理装置が、前記オーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する分割ステップであって、前記分割処理が、
前記分割処理の対象となる一つの前記チャネルを対象チャネルとした場合に、該対象チャネル以外のチャネルの前記オーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルの前記オーディオ信号との相関が最も高い推定信号を該対象チャネルの前記コヒーレント成分として抽出するステップと、
前記対象チャネルの前記オーディオ信号と該対象チャネルの前記コヒーレント成分との差分を該対象チャネルの前記フィールド成分として抽出するステップと
を含む、該分割ステップと、
前記オーディオ信号処理装置が、前記分割ステップにおいて抽出された各チャネルの前記コヒーレント成分および前記フィールド成分を出力する出力ステップと
を含むオーディオ信号処理方法。
【請求項5】
複数のチャネルのオーディオ信号を受け付ける受付ステップと、
前記オーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する分割ステップであって、前記分割処理が、
前記分割処理の対象となる一つの前記チャネルを対象チャネルとした場合に、該対象チャネル以外のチャネルの前記オーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルの前記オーディオ信号との相関が最も高い推定信号を該対象チャネルの前記コヒーレント成分として抽出するステップと、
前記対象チャネルの前記オーディオ信号と該対象チャネルの前記コヒーレント成分との差分を該対象チャネルの前記フィールド成分として抽出するステップと
を含む、該分割ステップと、
前記分割ステップにおいて抽出された各チャネルの前記コヒーレント成分および前記フィールド成分を出力する出力ステップと
をコンピュータに実行させるオーディオ信号処理プログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明の一側面は、オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラムに関する。
【背景技術】
【0002】
オーディオ信号のチャネル数を変更する手法が従来から知られている。具体的には、Mチャネルのオーディオ信号をNチャネル(ただし、N>M)のオーディオ信号に変換するアップミックスという手法と、Nチャネルのオーディオ信号をMチャネルのオーディオ信号に変換するダウンミックスという手法が存在する。例えば、2チャネル(左チャネルおよび右チャネル)のオーディオ信号から5.1チャネルのオーディオ信号への変換はアップミックスの一例である。また、5.1チャネルのオーディオ信号から2チャネルのオーディオ信号への変換はダウンミックスの一例である。
【0003】
例えば下記特許文献1には、テレビ・ラジオのスポーツ実況番組のステレオ放送を、迫力ある臨場感と聴き取りやすいアナウンスとするサラウンド再生装置が記載されている。この装置はフロント左/右チャンネル信号創成手段、フロントセンタチャンネル信号創成手段、およびリア左/右サラウンドチャンネル信号創成手段を有する。フロント左/右チャンネル信号創成手段は、2チャンネル音声信号入力に対して、マトリックス処理を行って得たフロント左/右チャンネル用各音声信号に、残響音を選択的に付加すると共にフロント用音量調整を行い、フロント左/右チャンネル用各音声信号として出力する。フロントセンタチャンネル信号創成手段は、2チャンネル音声信号入力から、同相成分を抽出して得た音声信号に、残響音を付加せずにフロントセンタチャンネル用音声信号としてセンタ用音量調整を行って出力する。リア左/右サラウンドチャンネル信号創成手段は、マトリックス処理を行って得たフロント左/右チャンネル用各音声信号に、残響音を付加すると共にリア用音量調整を行い、リア左/右チャンネル用各音声信号として出力する。
【0004】
下記非特許文献1,2はいずれも、アップミックスの手法を記載する文献である。非特許文献1には、ステレオ信号を帯域分割し、帯域ごとにステレオ信号を主信号とアンビエンス信号とに分割し、アンビエンス信号を5.1チャネルの後方チャネルから再生する手法が記載されている。非特許文献2には、ステレオ信号を帯域分割した後に、そのステレオ信号を直接音成分と残響音成分とに分割し、残響音成分を側方から再生する方法が記載されている。
【0005】
下記非特許文献3,4はいずれも、多チャネルのオーディオ信号を2チャネルのオーディオ信号のペアに分割することで、3チャネル以上のオーディオ信号を生成する手法を開示する。
【先行技術文献】
【0006】

【特許文献1】特開2007-28065号公報
【0007】

【非特許文献1】C. Avendano and J-M Jot, "A Frequency-Domain Approach to Multichannel Upmix," J. Audio Eng. Soc., Vol. 52, No. 7/8, pp. 740-749, 2004
【非特許文献2】C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals," J. Audio Eng. Soc., Vol. 54, No. 11, pp. 1051-1064, 2006
【非特許文献3】J. Thompson, B. Smith, A. Warmer and J-M Jot, “Direct-Diffuse Decomposition of Multichannel Signals Using a System of Pairwise Correlations,” Proc. Audio Eng. Soc. 133rd Convention, Paper no. 8807, 2012
【非特許文献4】C. Faller, L. Altmann, J. Levinson and M. Schmidt, “Multichannel Ring Upmix,” Proc. Audio Eng. Soc. 134th Convention, Paper no. 8908, 2013
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1に記載のサラウンド再生装置は原音に残響音を付加するため、再生音の雰囲気(例えば音色)が原音から変わったり損なわれたりしてしまう。これに対して非特許文献1,2に記載の手法は残響音を付加するものではないが、原理上、2チャネルのオーディオ信号(すなわち、ステレオ信号)にしか適用できない。
【0009】
非特許文献3,4に記載の手法では、2チャネルのオーディオ信号の間で相関が高い成分をコヒーレント成分として抽出するので、二つのスピーカの中間付近に位置する音の情報を取得することになる。したがって、3チャネル以上のオーディオ・システムでは、任意の二つのスピーカの中間付近の音の情報だけしかコヒーレント成分として抽出することができず、全スピーカで囲まれた領域の中央部分に位置する音の情報を抽出することができない。
【0010】
そこで、原音のチャネル数にかかわらず、オーディオ信号のチャネル数を変更する際に原音の雰囲気を可能な限り維持する手法が望まれている。
【課題を解決するための手段】
【0011】
本発明の一側面に係るオーディオ信号処理装置は、複数のチャネルのオーディオ信号を受け付ける受付部と、オーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する分割部であって、分割処理が、分割処理の対象となる一つのチャネルを対象チャネルとした場合に、該対象チャネル以外のチャネルのオーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルのオーディオ信号との相関が最も高い推定信号を該対象チャネルのコヒーレント成分として抽出するステップと、対象チャネルのオーディオ信号と該対象チャネルのコヒーレント成分との差分を該対象チャネルのフィールド成分として抽出するステップとを含む、該分割部と、分割部により抽出された各チャネルのコヒーレント成分およびフィールド成分を出力する出力部とを備える。
【0012】
本発明の一側面に係るオーディオ信号処理方法は、オーディオ信号処理装置が、複数のチャネルのオーディオ信号を受け付ける受付ステップと、オーディオ信号処理装置が、オーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する分割ステップであって、分割処理が、分割処理の対象となる一つのチャネルを対象チャネルとした場合に、該対象チャネル以外のチャネルのオーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルのオーディオ信号との相関が最も高い推定信号を該対象チャネルのコヒーレント成分として抽出するステップと、対象チャネルのオーディオ信号と該対象チャネルのコヒーレント成分との差分を該対象チャネルのフィールド成分として抽出するステップとを含む、該分割ステップと、オーディオ信号処理装置が、分割ステップにおいて抽出された各チャネルのコヒーレント成分およびフィールド成分を出力する出力ステップとを含む。
【0013】
本発明の一側面に係るオーディオ信号処理プログラムは、複数のチャネルのオーディオ信号を受け付ける受付ステップと、オーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する分割ステップであって、分割処理が、分割処理の対象となる一つのチャネルを対象チャネルとした場合に、該対象チャネル以外のチャネルのオーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルのオーディオ信号との相関が最も高い推定信号を該対象チャネルのコヒーレント成分として抽出するステップと、対象チャネルのオーディオ信号と該対象チャネルのコヒーレント成分との差分を該対象チャネルのフィールド成分として抽出するステップとを含む、該分割ステップと、分割ステップにおいて抽出された各チャネルのコヒーレント成分およびフィールド成分を出力する出力ステップとをコンピュータに実行させる。
【0014】
このような側面においては、対象チャネル以外のチャネルのオーディオ信号を用いて推定され、且つ該対象チャネルの実際のオーディオ信号ごとの相関が最も高い信号が該対象チャネルのコヒーレント成分として抽出される。また、対象チャネルの実際のオーディオ信号とそのコヒーレント成分との差分が該対象チャネルのフィールド成分として抽出される。このコヒーレント成分およびフィールド成分は各チャネルについて得られる。このように、音を追加することなく元のオーディオ信号のみを用いて各チャネルのコヒーレント成分およびフィールド成分を求めることで、原音の雰囲気を可能な限り維持することができる。加えて、コヒーレント成分およびフィールド成分は元のチャネル数の分だけ求めることができるので、この手法は原音のチャネル数にかかわらず適用できる。
【発明の効果】
【0015】
本発明の一側面によれば、原音のチャネル数にかかわらず、オーディオ信号のチャネル数を変更する際に原音の雰囲気を可能な限り維持することができる。
【図面の簡単な説明】
【0016】
【図1】実施形態に係るオーディオ信号処理の例を示す図である。
【図2】実施形態に係るオーディオ信号処理装置として機能するコンピュータのハードウェア構成を示す図である。
【図3】実施形態に係るオーディオ信号処理装置の機能構成を示す図である。
【図4】オーディオ信号を処理する単位であるブロックを示す図である。
【図5】ある一つのチャネルにおける処理を示す図である。
【図6】実施形態に係るオーディオ信号処理装置の動作を示すフローチャートである。
【図7】図6に示すコヒーレント成分の抽出の詳細を示すフローチャートである。
【図8】実施形態に係るオーディオ信号処理プログラムの構成を示す図である。
【図9】従来の手法におけるコヒーレント成分の抽出の例を示す図である。
【図10】実施形態におけるコヒーレント成分の抽出の例を示す図である。
【発明を実施するための形態】
【0017】
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。

【0018】
図1~図5を参照しながら、実施形態に係るオーディオ信号処理装置10の機能および構成を説明する。オーディオ信号処理装置10は、複数のチャネルのオーディオ信号のそれぞれをコヒーレント成分とフィールド成分とに分割するコンピュータである。オーディオ信号は、ヒトが聴くことができる周波数帯域(一般に約20Hz~20000Hz)の音を含むデジタル信号であり、必要に応じてアナログ信号に変換される。オーディオ信号で示される音の例として声、音楽、映像の音、自然音、あるいはこれらの任意の組合せが挙げられるが、これらに限定されるものではない。

【0019】
図1は、オーディオ信号処理装置10によるオーディオ信号の処理の一例を示し、より具体的には、2チャネル(LチャネルおよびRチャネル)、すなわちステレオのオーディオ信号の処理を示す。オーディオ信号処理装置10は各チャネルの信号をコヒーレント成分とフィールド成分とに分割する。

【0020】
ある一つのチャネルのコヒーレント成分とは、他のチャネルのオーディオ信号との相関が高い成分である。ある一つのチャネルのフィールド成分とは、該チャネルのオーディオ信号(すなわち、元の信号)と該チャネルのコヒーレント成分との差分である。より具体的には、フィールド成分はオーディオ信号からコヒーレント成分を差し引くことで得られる成分である。コヒーレント成分は明瞭な方向性を有する音であるのに対して、フィールド成分は、拡散性を持つ、周囲を取り巻くような音(ambient sound)である。以下では、フィールド成分に対応する音を「フィールド音」ともいう。

【0021】
図1は、オーディオ信号処理装置10がLチャネルのオーディオ信号をLチャネルのコヒーレント成分Lγおよびフィールド成分Lφに分割し、Rチャネルのオーディオ信号をRチャネルのコヒーレント成分Rγおよびフィールド成分Rφに分割することを示す。コヒーレント成分LγはRチャネルのオーディオ信号との相関が高い成分であり、コヒーレント成分RγはLチャネルのオーディオ信号との相関が高い成分である。

【0022】
図1は2チャネルのオーディオ信号の処理を示すが、オーディオ信号処理装置10は任意の個数のオーディオ信号を処理してよい。オーディオ信号処理装置10は3以上のチャネルのオーディオ信号を処理してもよく、例えば、8Kスーパーハイビジョン用の22.2チャネルのオーディオ信号を処理してもよい。

【0023】
三次元空間での音の方向、距離、広がりを再現可能な立体音響効果を実現するために、複数チャネルのオーディオ信号は、三次元空間内に分散して配置された複数のマイクにより記録される。複数チャネルのオーディオ信号は、複数の目的音(object sound)が互いに混ざったり目的音がフィールド音と混ざったりしたかたちで記録される。一般に音源からの距離は個々のマイクで異なるため、ある特定の音が到着する時間はマイク毎に異なり、その結果、記録されたオーディオ信号のコヒーレントが低くなる。コヒーレント成分を各チャネルのオーディオ信号から取り出すことができれば、音の明瞭性および見かけの音源の幅(ASW:Apparent Source Width)を改善することができる。また、フィールド成分を抽出してこれをアップミックスに用いることで、良好なアンビエンス効果(聴取者の周囲を音が取り巻くような感じ)を生み出すことが可能になる。一般に、コヒーレント成分は主たる音源から発せられる目的音(例えば、歌声、楽器の音、スピーカから発せられる音など)に相当し、フィールド成分は、音の方向性が明瞭でない音(例えば、エコー、うなりなど)に相当する。

【0024】
N個のチャネルのうちl番目のチャネルのオーディオ信号をx(n)とすると、このオーディオ信号x(n)はM個の目的音qlm(n)(m=1,…,M)とフィールド音v(n)とから成る。すなわち、オーディオ信号x(n)は式(1)で示される。
【数1】
JP2017188141A1_000003t.gif

【0025】
この式(1)で示されるように、目的音とフィールド音とは互いに統計的に独立と見なすことができる。オーディオ信号x(n)のコヒーレント成分γ(n)は式(2)で示される。
【数2】
JP2017188141A1_000004t.gif

【0026】
オーディオ信号x(n)のフィールド成分φ(n)は式(3)で示される。
【数3】
JP2017188141A1_000005t.gif

【0027】
オーディオ信号処理装置10の具体的な実現方法は限定されない。例えば、オーディオ信号処理装置10はパーソナル・コンピュータ、サーバ、携帯端末などのコンピュータに所定のプログラム(例えば、後述するオーディオ信号処理プログラムP1)をインストールすることで実現されてもよい。あるいは、アンプなどの音響機器がオーディオ信号処理装置10として機能してもよい。

【0028】
図2は、オーディオ信号処理装置10として機能するコンピュータ100の一般的なハードウェア構成を示す。コンピュータ100は、オペレーティングシステムやアプリケーション・プログラムなどを実行するプロセッサ(例えばCPU)101と、ROMおよびRAMで構成される主記憶部102と、ハードディスクやフラッシュメモリなどで構成される補助記憶部103と、ネットワークカードまたは無線通信モジュールで構成される通信制御部104と、キーボードやマウスなどの入力装置105と、モニタなどの出力装置106とを備える。

【0029】
オーディオ信号処理装置10の各機能要素は、プロセッサ101または主記憶部102の上に所定のソフトウェア(例えば、後述するオーディオ信号処理プログラムP1)を読み込ませてそのソフトウェアを実行させることで実現される。プロセッサ101はそのソフトウェアに従って、通信制御部104、入力装置105、または出力装置106を動作させ、主記憶部102または補助記憶部103におけるデータの読み出し及び書き込みを行う。処理に必要なデータまたはデータベースは主記憶部102または補助記憶部103内に格納される。

【0030】
なお、オーディオ信号処理装置10は1台のコンピュータで構成されてもよいし、複数台のコンピュータで構成されてもよい。複数台のコンピュータを用いる場合には、これらのコンピュータがインターネットやイントラネットなどの通信ネットワークを介して接続されることで、論理的に一つのオーディオ信号処理装置10が構築される。

【0031】
図3は、オーディオ信号処理装置10の機能構成を示す。図3に示すように、オーディオ信号処理装置10は機能的構成要素として受付部11、分割部12、および出力部13を備える。

【0032】
受付部11は、複数のチャネルのオーディオ信号を受け付ける機能要素である。「オーディオ信号を受け付ける」とは、オーディオ信号処理装置10がオーディオ信号を任意の手法で取得することである。言い換えると、「オーディオ信号を受け付ける」とは、オーディオ信号がオーディオ信号処理装置10に入力されることを意味する。各チャネルのオーディオ信号を受け付ける具体的な手法は限定されない。例えば、受付部11はデータベースまたは他の装置にアクセスしてオーディオ信号のデータファイルを読み出すことでそのオーディオ信号を受け付けてもよい。あるいは、受付部11は他の装置から通信ネットワーク経由で送られてきたオーディオ信号を受信してもよい。あるいは、受付部11はオーディオ信号処理装置10で入力されたオーディオ信号を取得してもよい。いずれにしても、受付部11は受け付けた各チャネルのオーディオ信号を分割部12に出力する。

【0033】
分割部12は、各チャネルのオーディオ信号をコヒーレント成分とフィールド成分とに分割する機能要素である。以下の説明は、分割部12が式(4)で示されるNチャネルのオーディオ信号{x(n)|l=1,…,N}を処理することを前提とする。
【数4】
JP2017188141A1_000006t.gif

【0034】
まず、分割部12は各チャネルのオーディオ信号を複数の時間区間の信号に分割する。具体的には、分割部12は窓関数(例えば、カイザー・ベッセル窓)を用いてオーディオ信号を短い時間間隔(これを「フレーム」という)の信号に区切る。例えば、後述する変形離散コサイン変換(MDCT)において1024個の周波数点を用いるのであれば、分割部12は2048点分の長さに相当するカイザー・ベッセル窓を用いてオーディオ信号を複数のフレームに分割する。通常、1フレーム内のサンプル数は適切な周波数分解能が得られるように決められるが、そのサンプル数はコヒーレント成分を推定するには十分ではない。そこで、分割部12は連続する複数のフレーム(例えば24個のフレーム)を一つの時間区間(これを「ブロック」という)の信号として設定する。図4はこのようなブロックの生成の概念を示し、より具体的には、2チャネル(LチャネルおよびRチャネル)のオーディオ信号のそれぞれを複数のブロックに分割する処理を示す。

【0035】
各チャネルのオーディオ信号を複数のブロックに分割すると、分割部12は各チャネルの各ブロックに対して以下の処理を実行する。本明細書では、オーディオ信号をコヒーレント成分とフィールド成分とに分ける対象(すなわち、分割処理の対象)となるチャネルを「対象チャネル」という。ここでは、ある一つの対象チャネルにおける処理を説明する。

【0036】
分割部12は、対象チャネルのコヒーレント成分を抽出し、その後に該対象チャネルのフィールド成分を抽出する。図5は、その一連の処理の前半に相当する、コヒーレント成分の抽出の概念を示す。分割部12は、フィルタバンクを用いて、対象チャネルであるl番目のチャネルのオーディオ信号x(n)をK個の周波数帯域(サブバンド)の信号(これを「サブバンド信号」という。)に分割する。そして、分割部12は各サブバンドにおいて、対象チャネル以外の他のチャネルのオーディオ信号を用いてコヒーレント成分γ(k)(n)(k=1,…,K)を抽出する。分割部12はこの抽出の際に最小二乗法を用いる。そして、分割部12は全サブバンドのコヒーレント成分を加算することで、対象チャネルのコヒーレント成分γ(n)を抽出する。その後、分割部12は、元のオーディオ信号x(n)からコヒーレント成分γ(n)を差し引くことでフィールド成分φ(n)を抽出する。

【0037】
分割部12は対象チャネルのオーディオ信号の各ブロックについて以下の処理を実行する。

【0038】
分割部12はフィルタバンクを用いて各チャネルのオーディオ信号x(n)をK個のサブバンド信号x(k)(n)に分割する。この分割は式(5)で示される。
【数5】
JP2017188141A1_000007t.gif

【0039】
なお、式(5)で示されるサブバンド信号x(k)(n)は時間領域での信号であり、したがって、時間領域サブバンド信号である。周波数領域での信号を用いる上記の非特許文献1~4の手法と異なり、オーディオ信号処理装置10は時間領域サブバンド信号を用いるので、連続する任意のフレーム数の信号を一つのブロック信号として処理することで推定区間長を伸ばすことができる。この結果、得られたコヒーレント成分の音質を損なうことなく各チャネルのオーディオ信号を処理することができる。

【0040】
続いて、分割部12はこのサブバンド信号x(k)(n)を、対象チャネル以外のN-1個のチャネルの同帯域(同じサブバンド)のサブバンド信号{x(k)(n)|m=1,…,l-1,l+1,…,N}の線形結合から推定する。ある1ブロックに対応するこの線形結合は式(6)で示される。
【数6】
JP2017188141A1_000008t.gif

【0041】
推定信号
【数7】
JP2017188141A1_000009t.gif
は、他チャネル(対象チャネル以外のN-1個のチャネル)の同帯域の信号との相関が高い成分と考えることができる。対象チャネルのサブバンド信号とこの推定信号との推定誤差e(k)(n)は式(7)で示される。
【数8】
JP2017188141A1_000010t.gif

【0042】
分割部12は、この推定誤差を最小にする係数{a(k)|m=1,…,l-1,l+1,…,N}を最小二乗法で求める。最小化すべき誤差関数は式(8)で示される。
【数9】
JP2017188141A1_000011t.gif

【0043】
ここで、
【数10】
JP2017188141A1_000012t.gif
とすると、最適な係数群
【数11】
JP2017188141A1_000013t.gif
は式(9)を満たす。
【数12】
JP2017188141A1_000014t.gif

【0044】
この式(9)をm=1,…,l-1,l+1,…,Nで連立させると式(10)が得られる。
【数13】
JP2017188141A1_000015t.gif
ここで、
【数14】
JP2017188141A1_000016t.gif
【数15】
JP2017188141A1_000017t.gif
【数16】
JP2017188141A1_000018t.gif
である。

【0045】
k番目のサブバンドにおける対象チャネルの係数ベクトルa^(k)は式(11)により得られる。
【数17】
JP2017188141A1_000019t.gif

【0046】
k番目のサブバンドにおける対象チャネルのコヒーレント成分γ(k)(n)は式(12)により得られる。このコヒーレント成分γ(k)(n)は、対象チャネル以外のチャネルのオーディオ信号を用いて算出される推定信号のうち該対象チャネルのオーディオ信号との相関が最も高い推定信号に相当する。
【数18】
JP2017188141A1_000020t.gif

【0047】
分割部12はすべてのサブバンドについてコヒーレント成分を求める。そして、分割部12は全サブバンドのコヒーレント成分を加算することで対象チャネルのコヒーレント成分を求める。この処理は式(13)で示される。
【数19】
JP2017188141A1_000021t.gif

【0048】
さらに、分割部12は対象チャネルの元のオーディオ信号からそのコヒーレント成分を差し引くことで、対象チャネルのフィールド成分を求める。この処理は上記式(3)で示される。

【0049】
なお、分割部12は、各サブバンドにおいてオーディオ信号からコヒーレント成分を差し引くことでフィールド成分を求め、全サブバンドのフィールド成分を加算することで対象チャネルのフィールド成分を求めてもよい。具体的には、k番目のサブバンドにおける対象チャネルのフィールド成分φ(k)(n)は式(14)により得られる。
【数20】
JP2017188141A1_000022t.gif
対象チャネルのフィールド成分φ(n)は式(15)により得られる。
【数21】
JP2017188141A1_000023t.gif

【0050】
分割部12は上記の処理を対象チャネルのオーディオ信号の各ブロックに対して実行する。そして、分割部12は全ブロックのコヒーレント成分を連結することで対象チャネルのコヒーレント成分を抽出する。また、分割部12は全ブロックのフィールド成分を連結することで対象チャネルのフィールド成分を生成する。

【0051】
分割部12は複数のチャネルのそれぞれを対象チャネルとして設定して上記の処理を実行することで、全チャネルについてコヒーレント成分およびフィールド成分を生成する。そして、分割部12は全チャネルのコヒーレント成分およびフィールド成分を出力部13に出力する。

【0052】
このように、分割部12は各チャネルのオーディオ信号に別の信号を追加することなく(すなわち、原音に別の音を追加することなく)、各チャネルのオーディオ信号をコヒーレント成分とフィールド成分とに分割する。

【0053】
出力部13は、分割部12により生成された各チャネルのコヒーレント成分およびフィールド成分を処理結果として出力する機能要素である。この処理結果は、Nチャネルから2Nチャネルへのアップミックスを実現したものであるということができる。処理結果の出力方法は何ら限定されない。例えば、出力部13は処理結果をメモリやデータベースなどの記憶装置に格納してもよいし、通信ネットワークを介して他の装置に送信してもよい。あるいは、出力部13は各チャネルのコヒーレント成分およびフィールド成分を対応するスピーカに出力してもよい。いずれにしても、オーディオ信号処理装置10による処理結果を用いて、既存の音声素材を、より多くのチャネル数を持つコンテンツの制作に利用したり、より多くのチャネルを有するオーディオ・システムで再生したりすることが可能になる。

【0054】
オーディオ信号処理装置10は、Nチャネルのオーディオ信号を2Nより大きい数のチャネルにアップミックスしてもよい。具体的には、オーディオ信号処理装置10は、抽出した複数のフィールド成分を下記参考文献に記載の手法で無相関化することで、チャネル間の相関が互いに異なる信号を生成する。これにより、Nより多い個数のフィールド成分が得られる。例えば、ステレオの音声素材を5.1チャネルの音声素材に変換したり、5.1チャネルのオーディオ・システムを用いてより高い臨場感で再生したりすることができる。あるいは、5.1チャネルの音声素材を22.2チャネルの音声素材に変換したり、22.2チャネルのオーディオ・システムを用いてより高い臨場感で再生したりすることができる。
(参考文献)J. Breebaart and C. Fallar, “Spatial Audio Processing - MPEG Surround and Other Applications,” Wiley, 2007.

【0055】
オーディオ信号処理装置10は、Nチャネルのオーディオ信号を、2Nより小さいJ個のオーディオ信号(ただし、J>N)のオーディオ信号にアップミックスしてもよい。具体的には、オーディオ信号処理装置10はN個のフィールド成分をミキシングすることで、NチャネルからJチャネルへのアップミックスを実現する。

【0056】
オーディオ信号処理装置10による処理結果はアップミックスだけでなくダウンミックスにも利用可能である。

【0057】
次に、図6および図7を参照しながら、オーディオ信号処理装置10の動作を説明するとともに本実施形態に係るオーディオ信号処理方法について説明する。オーディオ信号処理装置10では、まず、受付部11が複数のチャネルのオーディオ信号を受け付ける(受付ステップ)。続いて、分割部12がオーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する(分割ステップ)。そして、出力部13が各チャネルのコヒーレント成分およびフィールド成分を出力する(出力ステップ)。以下では、特に重要な分割部12の処理(分割ステップ)について詳しく説明する。

【0058】
図6は、一つの対象チャネルのコヒーレント成分およびフィールド成分を生成する処理を示す。

【0059】
まず、分割部12は各チャネルのオーディオ信号を複数のブロックに分割する(ステップS11)。なお、ステップS11において分割した各チャネルおよび各ブロックのオーディオ信号を保存することで、2番目以降の対象チャネルを処理する際にはステップS11を省略することができる。

【0060】
続いて、分割部12は対象チャネルの複数のブロックのうちの一つを処理対象として設定する(ステップS12)。続いて、分割部12は、対象チャネル以外のチャネルのオーディオ信号を用いて算出される推定信号のうち、対象チャネルのオーディオ信号との相関が最も高い推定信号を、対象チャネルのコヒーレント成分として抽出する(ステップS13)。続いて、分割部12は、対象チャネルのオーディオ信号とそのコヒーレント成分との差分を、対象チャネルのフィールド成分として抽出する(ステップS14)。このような処理により、分割部12は対象チャネルの1ブロックのコヒーレント成分およびフィールド成分を得る。

【0061】
分割部12は一つのブロックを処理すると次のブロックの処理に移る(ステップS15参照)。すなわち、分割部12は次のブロックを処理対象として設定し(ステップS12)、そのブロックのコヒーレント成分およびフィールド成分を生成する(ステップS13およびS14)。分割部12はすべてのブロックについてステップS12~S14の処理を実行し、全ブロックのコヒーレント成分およびフィールド成分を生成する(ステップS15においてYES)。そして、分割部12は全ブロックのコヒーレント成分を連結することで対象チャネルの最終的なコヒーレント成分を得ると共に、全ブロックのフィールド成分を連結することで対象チャネルの最終的なフィールド成分を得る。

【0062】
図7は、図6におけるステップS13の処理の詳細、すなわち、対象チャネルのコヒーレント成分を生成する処理の詳細を示す。図7に示す処理は対象チャネルのオーディオ信号の各ブロックについて実行される。

【0063】
まず、分割部12は各チャネル(対象チャネルおよびすべての他チャネル)について、ブロック信号を複数のサブバンドに分割することで複数のサブバンド信号を生成する(ステップS131)。続いて、分割部12は複数のサブバンドのうちの一つを処理対象として設定する(ステップS132)。続いて、分割部12は、対象チャネル以外のチャネルのサブバンド信号を用いて算出される推定信号のうち、対象チャネルのサブバンド信号との相関が最も高い推定信号を、処理対象であるサブバンドにおける対象チャネルのコヒーレント成分として抽出する(ステップS133)。分割部12はすべてのサブバンドについてステップS132およびS133の処理を実行する(ステップS134参照)。対象チャネルについて全サブバンドのコヒーレント成分を生成すると(ステップS134においてYES)、分割部12はそれらのコヒーレント成分を加算することで対象チャネルのコヒーレント成分(より具体的には、1ブロック分のコヒーレント成分)を生成する(ステップS135)。

【0064】
次に、図8を参照しながら、コンピュータをオーディオ信号処理装置10として機能させるためのオーディオ信号処理プログラムP1を説明する。

【0065】
オーディオ信号処理プログラムP1はメインモジュールP10、受付モジュールP11、分割モジュールP12、および出力モジュールP13を含む。メインモジュールP10は、オーディオ信号の処理を統括的に実行する部分である。受付モジュールP11、分割モジュールP12、および出力モジュールP13を実行することにより実現される機能はそれぞれ、上記の受付部11、分割部12、および出力部13の機能と同様である。

【0066】
オーディオ信号処理プログラムP1は、例えば、CD-ROMやDVD-ROM、半導体メモリなどの有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、オーディオ信号処理プログラムP1は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。

【0067】
以上説明したように、本発明の一側面に係るオーディオ信号処理装置は、複数のチャネルのオーディオ信号を受け付ける受付部と、オーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する分割部であって、分割処理が、分割処理の対象となる一つのチャネルを対象チャネルとした場合に、該対象チャネル以外のチャネルのオーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルのオーディオ信号との相関が最も高い推定信号を該対象チャネルのコヒーレント成分として抽出するステップと、対象チャネルのオーディオ信号と該対象チャネルのコヒーレント成分との差分を該対象チャネルのフィールド成分として抽出するステップとを含む、該分割部と、分割部により抽出された各チャネルのコヒーレント成分およびフィールド成分を出力する出力部とを備える。

【0068】
本発明の一側面に係るオーディオ信号処理方法は、オーディオ信号処理装置が、複数のチャネルのオーディオ信号を受け付ける受付ステップと、オーディオ信号処理装置が、オーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する分割ステップであって、分割処理が、分割処理の対象となる一つのチャネルを対象チャネルとした場合に、該対象チャネル以外のチャネルのオーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルのオーディオ信号との相関が最も高い推定信号を該対象チャネルのコヒーレント成分として抽出するステップと、対象チャネルのオーディオ信号と該対象チャネルのコヒーレント成分との差分を該対象チャネルのフィールド成分として抽出するステップとを含む、該分割ステップと、オーディオ信号処理装置が、分割ステップにおいて抽出された各チャネルのコヒーレント成分およびフィールド成分を出力する出力ステップとを含む。

【0069】
本発明の一側面に係るオーディオ信号処理プログラムは、複数のチャネルのオーディオ信号を受け付ける受付ステップと、オーディオ信号をコヒーレント成分とフィールド成分とに分割する分割処理を各チャネルについて実行する分割ステップであって、分割処理が、分割処理の対象となる一つのチャネルを対象チャネルとした場合に、該対象チャネル以外のチャネルのオーディオ信号を少なくとも用いて算出される推定信号のうち該対象チャネルのオーディオ信号との相関が最も高い推定信号を該対象チャネルのコヒーレント成分として抽出するステップと、対象チャネルのオーディオ信号と該対象チャネルのコヒーレント成分との差分を該対象チャネルのフィールド成分として抽出するステップとを含む、該分割ステップと、分割ステップにおいて抽出された各チャネルのコヒーレント成分およびフィールド成分を出力する出力ステップとをコンピュータに実行させる。

【0070】
このような側面においては、対象チャネル以外のチャネルのオーディオ信号を用いて推定され、且つ該対象チャネルの実際のオーディオ信号ごとの相関が最も高い信号が該対象チャネルのコヒーレント成分として抽出される。また、対象チャネルの実際のオーディオ信号とそのコヒーレント成分との差分が該対象チャネルのフィールド成分として抽出される。このコヒーレント成分およびフィールド成分は各チャネルについて得られる。このように、音を追加することなく元のオーディオ信号のみを用いて各チャネルのコヒーレント成分およびフィールド成分を求めることで、原音の雰囲気(例えば本来の音色)を可能な限りまたは完全に維持することができる。加えて、コヒーレント成分およびフィールド成分は元のチャネル数の分だけ求めることができるので、この手法は原音のチャネル数にかかわらず適用できる。例えば、本発明の一側面は2チャネル、3チャネル、5.1チャネル、22.2チャネルなどの任意のチャネル数のオーディオ信号に対して適用できる。

【0071】
図9および図10を用いて上記側面の優位性を説明する。図9は従来の手法におけるコヒーレント成分の抽出の例を示す図であり、図10は上記側面におけるコヒーレント成分の抽出の例を示す図である。図9,10共に、三角形状に配置された三つのスピーカ90からオーディオ信号が出力される例を示し、したがって、この例は3チャネルのオーディオ・システムを示す。

【0072】
図9に示すように、上記の非特許文献3,4に記載の手法では、2チャネルのオーディオ信号の間で相関が高い成分をコヒーレント成分91として抽出する(なお、破線92はフィールド成分を示す)。したがって、このような従来の手法では、二つのスピーカ(チャネル)90の中間部分93に位置する音の情報しか取得することができず、三つのスピーカ(チャネル)90で囲まれた領域の中央部分94に位置する音の情報を抽出することができない。

【0073】
これに対して上記側面では、あるスピーカ(チャネル)90のコヒーレント成分が他のスピーカ(チャネル)90の信号から推定される。そのため、図10に示すように、三つのスピーカ(チャネル)90で囲まれた領域の中央部分95に位置する音の情報を抽出することができる。この中央部分95は、図9における部分93,94の和に相当し得る。

【0074】
他の側面に係るオーディオ信号処理装置では、分割処理が、窓関数を用いてオーディオ信号を複数のフレームに区切る処理を各チャネルについて実行するステップと、連続する少なくとも二つのフレームを一つのブロックにまとめる処理を複数のフレームの全体に対して実行することで複数のブロックを生成する処理を各チャネルについて実行するステップと、ブロックのそれぞれにおいて対象チャネルのコヒーレント成分を抽出するステップとを含んでもよい。

【0075】
複数のフレームで構成されるブロックを採用することで、コヒーレント成分の推定のためのサンプル数が多くなるので、コヒーレント成分をより精度良く抽出することが可能になる。

【0076】
他の側面に係るオーディオ信号処理装置では、分割部が、各チャネルのオーディオ信号を複数のサブバンドに分割することで、各チャネルについて複数のサブバンド信号を生成するステップと、複数のサブバンドのそれぞれにおいて対象チャネルのコヒーレント成分を抽出するステップと、複数のサブバンドにおけるコヒーレント成分を加算することで対象チャネルのコヒーレント成分を抽出するステップとを含んでもよい。

【0077】
一般に、音声処理では一部の周波数が他の周波数よりも重要であることが多い。サブバンド毎に処理することで、それぞれの周波数帯で要求される精度に応じてコヒーレント成分を抽出することができ、ひいてはコヒーレント成分およびフィールド成分を精度良く抽出することができる。
【実施例】
【0078】
以下、実施例に基づいて本発明を具体的に説明するが、本発明はそれらに何ら限定されるものではない。
【実施例】
【0079】
表1に示される7個のステレオ音声素材(すなわち、2チャネルのオーディオ信号)を用意した。いずれの音声素材も市販のCDから入手したものであり、サンプリング周波数は44.1kHzであった。表1の名前欄は曲名または楽曲の種類を示し、説明欄は演奏の形態を示す。ミキシング欄における「Artifical」はミキシング処理が施された素材であることを示し、「Natural」はミキシング処理が施されていない素材であることを示す。長さ欄は再生時間を示す。
【表1】
JP2017188141A1_000024t.gif
【実施例】
【0080】
オーディオ信号を完全に再構築できるフィルタバンクを構築するために、変形離散コサイン変換(MDCT)を用いた重畳加算法を採用した。オーディオ信号を複数のフレームに分割するための窓関数としてカイザー・ベッセル窓を用いた。フレーム長は2048点とし、これは、MDCTにおいて1024個の周波数点が得られることを意味する。その周波数点を表2に示すように23個のサブバンドにまとめた。これらのサブバンドは、MPEG-2 AAC標準を参考に、48kHz long FFT(高速フーリエ変換)における69個のサブバンドを三つの連続するサブバンド毎に一つにまとめたものである。24個のフレームを1ブロックとした。サンプリング周波数が44.1kHzであれば、ブロック長は0.58秒に相当するものであった。
【表2】
JP2017188141A1_000025t.gif
【実施例】
【0081】
実験結果をチャネル間の相互相関係数で評価した。原音、コヒーレント成分、およびフィールド成分の相互相関係数を表3に示す。コヒーレント成分は原音よりも高い相互相関を示した。このようなコヒーレント成分は原音よりも狭い音場の雰囲気をもたらす。一方、フィールド成分は、一個の素材(“Quiet Night”)を除いて負の相互相関を示した。負の相互相関を示すフィールド成分を側方もしくは後方に設置したスピーカで再生すれば、良好なアンビエンス効果が得られる。その結果として、臨場感の高い音を再生することができる。
【表3】
JP2017188141A1_000026t.gif
【実施例】
【0082】
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
【実施例】
【0083】
上記実施形態では、分割部12が、ある一つの対象チャネルのコヒーレント成分を、該対象チャネル以外のチャネルのオーディオ信号を用いて推定した。この変形例として、分割部は、当該他チャネルのオーディオ信号と、対象チャネルの過去のオーディオ信号および当該他チャネルの過去のオーディオ信号の少なくとも一方とを用いて、該対象チャネルのコヒーレント成分を推定してもよい。ここで、「過去のオーディオ信号」とは、処理対象のブロックより時間的に前のブロックのオーディオ信号である。対象チャネルおよび他チャネルのうちの一方または双方の過去のオーディオ信号も用いて、処理対象のブロックにおける対象チャネルのオーディオ信号を推定することで、コヒーレント成分をより精度良く抽出することが期待できる。
【実施例】
【0084】
少なくとも一つのプロセッサにより実行されるオーディオ信号処理方法の手順は上記実施形態での例に限定されない。例えば、オーディオ信号処理装置は上述したステップ(処理)の一部を省略してもよいし、別の順序で各ステップを実行してもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正又は削除されてもよい。あるいは、オーディオ信号処理装置は上記の各ステップに加えて他のステップを実行してもよい。
【実施例】
【0085】
オーディオ信号処理装置は、二つの数値の大小関係を比較する際に、「以上」および「よりも大きい」という二つの基準のどちらを用いてもよく、「以下」および「未満」の二つの基準のうちのどちらを用いてもよい。このような基準の選択は、二つの数値の大小関係を比較する処理についての技術的意義を変更するものではない。
【符号の説明】
【0086】
10…オーディオ信号処理装置、11…受付部、12…分割部、13…出力部、el…推定誤差、P1…オーディオ信号処理プログラム、P10…メインモジュール、P11…受付モジュール、P12…分割モジュール、P13…出力モジュール。
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9