TOP > 国内特許検索 > 音源情報の抽出方法及び装置 > 明細書

明細書 :音源情報の抽出方法及び装置

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第3417880号 (P3417880)
公開番号 特開2001-022369 (P2001-022369A)
登録日 平成15年4月11日(2003.4.11)
発行日 平成15年6月16日(2003.6.16)
公開日 平成13年1月26日(2001.1.26)
発明の名称または考案の名称 音源情報の抽出方法及び装置
国際特許分類 G10L 11/04      
FI G10L 9/00 B
請求項の数または発明の数 6
全頁数 21
出願番号 特願平11-192437 (P1999-192437)
出願日 平成11年7月7日(1999.7.7)
審査請求日 平成11年7月7日(1999.7.7)
特許権者または実用新案権者 【識別番号】396020800
【氏名又は名称】科学技術振興事業団
【識別番号】393031586
【氏名又は名称】株式会社国際電気通信基礎技術研究所
発明者または考案者 【氏名】河原 英紀
【氏名】入野 俊夫
個別代理人の代理人 【識別番号】100089635、【弁理士】、【氏名又は名称】清水 守
審査官 【審査官】渡邊 聡
参考文献・文献 特許3112654(JP,B2)
特許3251555(JP,B2)
調査した分野 G10L 11/04
特許請求の範囲 【請求項1】
周波数から瞬時周波数への写像の不動点を用いた音源情報の抽出方法において、
各フィルタ出力についての瞬時周波数の周波数方向の偏微分を行い、各フィルタ出力周波数方向偏微分し更に時間方向に偏微分した値に適切な加重をかけて、時間方向に短時間の加重付きの積分を行うことにより、各フィルタについての搬送波対雑音比の推定値を計算し、搬送波対雑音比を求め、評価量の推定値を得ることを特徴とする音源情報の抽出方法。

【請求項2】
請求項1記載の音源情報の抽出方法において、前記搬送波対雑音比による評価量の推定値に基づいて、対数周波数軸上相似フィルタを基本周波数に対応する不動点の選択に用い、基本周波数についての事前情報無しに基本周波数を抽出することを特徴とする音源情報の抽出方法。

【請求項3】
請求項2記載の音源情報の抽出方法において、前記対数周波数軸上相似フィルタと線形周波数軸上相似適応チャープフィルタとを組み合わせることにより基本周波数についての事前情報無しに基本周波数を抽出するとともに、該抽出された基本周波数の精度を改良することを特徴とする音源情報の抽出方法。

【請求項4】
周波数から瞬時周波数への写像の不動点を用いた音源情報の抽出装置において、
各フィルタ出力についての瞬時周波数の周波数方向の偏微分を行い第1の値を得る手段と、
各フィルタ出力を周波数方向に偏微分し、更に時間方向に偏微分を行い第2の値を得る手段と、
該第1と第2の値に適切な加重をかけて、時間方向に短時間の加重付きの積分を行うことにより、各フィルタについての搬送波対雑音比の推定値を計算し、搬送波対雑音比を求め、評価量の推定値を得る手段を備えたことを特徴とする音源情報の抽出装置。

【請求項5】
請求項4記載の音源情報の抽出装置において、前記搬送波対雑音比による評価量の推定値に基づいて、基本周波数に対応する不動点の選択を行う対数周波数軸上相似フィルタを具備し、基本周波数についての事前情報無しに基本周波数を抽出する手段を備えたことを特徴とする音源情報の抽出装置。

【請求項6】
請求項5記載の音源情報の抽出装置において、前記対数周波数軸上相似フィルタと線形周波数軸上相似適応チャープフィルタとを組み合わせることにより基本周波数についての事前情報無しに基本周波数を抽出するとともに、該抽出された基本周波数の精度を改良することを特徴とする音源情報の抽出装置。
発明の詳細な説明 【発明の詳細な説明】

【001】

【発明の属する技術分野】本発明は、音源情報の抽出方法及び装置に関するものである。

【002】

【従来の技術】瞬時周波数は時間変化信号に対する周波数概念を自然に拡大した概念である。瞬時周波数は音声のような非定常信号を表すために適した性質を多く有する。これは種々の信号処理課題に応用された;正弦波モデルに基づいた音声符号化、フォルマント抽出及びバンド幅推定、有声音の調波構造の抽出、基本周波数(F0)の抽出、また、聴覚情報処理の興味深い計算モデル等である。以下では正弦波モデルの成分正弦波の周波数、位相情報、基本周波数、およびそれらの周期性の強さ(あるいは周期成分と非周期成分の割合)等を音源情報と総称することにする。しかし、この概念に潜在する重要な可能性、特に、音声の音源情報の抽出についてはまだ十分には研究されていない。これらの側面に関する最近の研究により、瞬時周波数を利用すれば非常に優れた音源情報の抽出方法が導かれることが明らかとなった。

【003】
複数の帯域通過型フィルタの共通する通過帯域に顕著な正弦波成分がある場合、帯域通過型フィルタ出力の瞬時周波数は、中心周波数の異なったフィルタにわたって実質的には一定値をとるということが知られていた。換言すれば、フィルタ中心の周波数から瞬時出力周波数までの写像は、顕著な信号周波数の近くに不動点を有する。この性質は、複合音の調波成分及び音声のフォルマントのような顕著な共振を抽出するのに用いられる。また、これらの性質と、異なった聴覚神経間の同期発火現象とが関連するであろうことが指摘されており、対応する聴覚的実体を表すものとして『音縒り(synchrony strand)』によるモデル化が行われている。しかし、これらの考えを一貫性のあるF0抽出方法としてどのようにまとめたら良いかは、明確ではなかった。

【004】
本願発明者は、近年、STRAIGHTと呼ばれる高品質の音声分析、変換、合成システムを提案している。STRAIGHTは、古典的なチャネルボコーダの概念を一般化されたピッチ同期分析に基づいて洗練したものである。ここでは、従来から用いられている述語として『ピッチ同期分析』という用語を踏襲して用いた。このように、音声情報処理の分野では、ピッチという用語が基本周波数(F0)と同じ意味で用いられている。しかし、これは、不正確な言葉の使用法である。物理的な属性を表すF0と心理的属性を表すピッチは本来別のものである。本明細書では、特に心理的属性に言及するのではない限り、『ピッチ』という用語を用いないこととする。STRAIGHT法では、F0に適応した分析が行われているため、声門の一開閉サイクルとして定義される有音声の基本周期毎に、正確でかつ信頼性のあるF0情報が必要となる。従来から提案されている様々なF0抽出方法を適用して検討した結果、従来の方法では時間分解能についての要求条件と周波数の精度についての要求条件とを共に満たすことができないことが明らかになった。また、抽出されたF0に高速に変化する成分や不連続を含む場合には、それらの絶対値が小さくてもそのF0情報に基づいて合成された音声の知覚的品質が劣化することが分かった。さらに、知覚的に高品質な音声の合成には、無声/有声の判定が非常に大きな影響を及ぼすことが示され、数ミリ秒以内の時間的正確さが求められる場合のあることが分かった。また、逆に、特定の方向への偏りが無いのであれば、F0をゆっくりと変化させるトレンド成分には、合成された音声に対する知覚的な悪影響が無いことがわかった。

【005】

【発明が解決しようとする課題】現在まで、多くのF0抽出方法がある;間隔測定に基づいた時間領域アルゴリズム、スペクトルに基づいた周波数領域の方法、自己相関及びharmonicsieve(調波成分を取り出す篩い)、それらを組み合わせた方法及び生物学的に動機づけがされた方法などがある。これらの方法及び装置では、分析対象とする信号が数学的な意味での周期的信号であることを仮定している。数学的な意味での周期性に基づいて導出されたこれらの方法による推定値は、F0が時間的に一定であるような信号については、正しいF0の推定値を与える。しかし、F0が時間的に変化するような現実の音声や、複合音を構成する成分正弦波の周波数が調波性から少しだけ外れたような音を分析する場合に、従来の方法が適切なF0の推定値をあたえるかどうかは明らかではない。

【006】
提案した高品質の音声変換システムでは、原音声の音源についての正確な情報に基づいて音声を変換し再合成することが必要である。したがって、この方法を改良するには、F0が時間的に変化したり調波性から外れた成分を含む信号についても合理的に適用することのできるF0抽出方法が必要となる。こうした観察が、基本成分の瞬時周波数を用いた高い時間分解能を有する正確なF0軌跡を生み出す新しいF0抽出方法の動機づけとなった。

【007】
STRAIGHT法では、基本波成分を含むフィルタが最小のAM変調およびFM変調となることを仮定して瞬時周波数に基づいたF0抽出方法を導出し、用いていた。STRAIGHTで用いていたF0抽出方法は、音声と同時に記録されたEGG(Electro Glotto Graph)信号を参照信号とした評価テストにおいて、妥当な性能を示した。例えば、女性話者による100文章の分析では、音声から求められたF0とEGGから求められたF0の誤差が20%以上の値を示したのは、全分析フレームの1.4%であった。また、全分析フレームの53%で、音声から求められたF0は、EGGから求められたF0の0.3%以内に入っていた。しかし、上記の最小のAM,FM変調の仮定はあいまいに定式化されており、数学的には有効でない。また、この方法では、男性の音声についてのF0の誤差の標準偏差が女性の音声の場合の2倍程度になるという問題があった。

【008】
本発明は、必要な数学的基礎を提供し、上記した方法の拡張である新たなF0抽出方法を導くことである。不動点におけるフィルタ中心周波数と出力瞬時周波数との関係の偏微分についての詳細な検討は、必要な数学的基礎を提供する重要な鍵であった。これにより、瞬時周波数概念の非定常的な側面を利用する新しい一貫したF0及び音源情報抽出方法へと導かれる。

【009】
本発明は、フィルタ中心周波数から出力の瞬時周波数への不動点の性質を瞬時のデータから定量的に解釈の明瞭な量として検出することができる音源情報の抽出方法及び装置を提供することを目的とする。

【010】

【課題を解決するための手段】〔1〕周波数から瞬時周波数への写像の不動点を用いた音源情報の抽出方法において、各フィルタ出力についての瞬時周波数の周波数方向の偏微分を行い、各フィルタ出力周波数方向偏微分し、更に時間方向に偏微分した値に適切な加重をかけて、時間方向に短時間の加重付きの積分を行うことにより、各フィルタについての搬送波対雑音比の推定値を計算し、搬送波対雑音比を求め、評価量の推定値を得るようにしたものである。

【011】
〔2〕上記〔1〕記載の音源情報の抽出方法において、前記搬送波対雑音比による評価量の推定値に基づいて、対数周波数軸上相似フィルタを基本周波数に対応する不動点の選択に用い、基本周波数についての事前情報無しに基本周波数を抽出するようにしたものである。

【012】
〔3〕上記〔2〕記載の音源情報の抽出方法において、前記対数周波数軸上相似フィルタと線形周波数軸上相似適応チャープフィルタとを組み合わせることにより基本周波数についての事前情報無しに基本周波数を抽出するとともに、この抽出された基本周波数の精度を改良するようにしたものである。

【013】
〔4〕周波数から瞬時周波数への写像の不動点を用いた音源情報の抽出装置において、各フィルタ出力についての瞬時周波数の周波数方向の偏微分を行い第1の値を得る手段と、各フィルタ出力を周波数方向に偏微分し、更に時間方向に偏微分を行い第2の値を得る手段と、これらの第1と第2の値に適切な加重をかけて、時間方向に短時間の加重付きの積分を行うことにより、各フィルタについての搬送波対雑音比の推定値を計算し、搬送波対雑音比を求め、評価量の推定値を得る手段を備えるようにしたものである。

【014】
〔5〕上記〔4〕記載の音源情報の抽出装置において、前記搬送波対雑音比による評価量の推定値に基づいて、基本周波数に対応する不動点の選択を行う対数周波数軸上相似フィルタを具備し、基本周波数についての事前情報無しに基本周波数を抽出する手段を備えるようにしたものである。

【015】
〔6〕上記〔5〕記載の音源情報の抽出装置において、前記対数周波数軸上相似フィルタと線形周波数軸上相似適応チャープフィルタとを組み合わせることにより基本周波数についての事前情報無しに基本周波数を抽出するとともに、この抽出された基本周波数の精度を改良するようにしたものである。

【016】

【発明の実施の形態】以下、本発明の実施の形態について詳細に説明する。

【017】
図1は本発明の実施例を示す音源情報の抽出を行うための基本周波数抽出装置のブロック図である。

【018】
この図に示すように、入力回路1は、分析の対象となる信号x(t)を増幅、変換、分配などするために用いられる。この入力回路1において、例えば、マイクで収録された音声信号は適切なレベルに増幅された後、適切な標本化周波数でディジタル化される。ディジタル化された信号は、対数周波数軸上相似フィルタ2により分析される。対数周波数軸上相似フィルタ2とは、周波数軸を対数周波数に変換してフィルタ特性を表した場合、軸上の位置のみが異なり、形状が同一のフィルタを複数、中心周波数を応用目的により定まる下限から上限まで組織的に配置したフィルタ群である。組織的な配置としては、対数周波数軸上で等間隔になるようにすることが普通である。しかし、それ以外の配置でも構わない。本発明の実験では、中心周波数を40Hzから800Hzまで、2の24乗根(約3%の増加に相当)づつ等比的に変化させた。それぞれのフィルタは、詳細に後述する式(8)(9)(10)により求められる複素数のインパルス応答を有するフィルタである。その対数周波数軸上相似フィルタ2の出力は、瞬時周波数周波数微分回路3と不動点抽出回路6とに送られる。

【019】
瞬時周波数周波数微分回路3においては、フィルタの出力から各フィルタ出力の瞬時周波数を計算し、さらに、隣接するフィルタの出力の瞬時周波数とそれぞれのフィルタの中心周波数に基づいて、各フィルタについて瞬時周波数の周波数方向の偏微分が計算される。これは、詳細に後述する式(20)に相当する。この計算結果は、瞬時周波数時間周波数微分回路4と搬送波対雑音比計算回路5とに送られる。

【020】
瞬時周波数時間周波数微分回路4においては、瞬時周波数周波数微分回路3において求められた各フィルタについて瞬時周波数の周波数方向の偏微分の時間方向の微分を計算することにより、各フィルタ出力の瞬時周波数の周波数方向の偏微分を時間方向に偏微分した値が求められる。これは、詳細に後述する式(22)に相当する。

【021】
搬送波対雑音比計算回路5は、各フィルタについての瞬時周波数の周波数方向の偏微分と、各フィルタ出力の周波数方向の偏微分を時間方向に偏微分した値に適切な加重をかけて、時間方向に短時間の加重付きの積分を行うことにより、各フィルタについての搬送波対雑音比の推定値を計算する。それぞれの偏微分に掛ける適切な重みは、それぞれのフィルタ形状とそれぞれのフィルタの中心周波数から詳細に後述する式(12)により求められる。この加重は、分析中に変化するものではない。したがって、フィルタを設計した時点で決定することができる。こうして決定した加重の値を搬送波対雑音比計算回路5に組み込んでおけば良い。

【022】
搬送波対雑音比計算回路5の働きについては、後述する図3に具体的に例が挙げられている。ある信号に対してその中の一つの正弦波成分を含むようなフィルタおよびその周辺のフィルタの出力から求められた量を例示している。瞬時周波数周波数微分回路3の出力は、図3の実線で表されている。瞬時周波数時間周波数微分回路4の出力は、図3の破線で示されている。これらのそれぞれを自乗し、平均して平方根を求めたものが図3の一点鎖線である。この一点鎖線は、瞬時周波数周波数微分回路3の出力と瞬時周波数時間周波数微分回路4の出力の全体的な傾向(振幅包絡)を表しているが、細かな振動と135ms付近で0に非常に近くなるため実用上は使用し難い。この一点鎖線の信号を注目しているフィルタのインパルス応答の包絡により時間的に平滑化することにより、図3の中の点線の信号を得る。こうして求められた信号は、搬送波対雑音比の良い推定値となる。

【023】
不動点抽出回路6は、各フィルタの中心周波数と各フィルタ出力の瞬時周波数の対応関係から不動点として安定な性質を持つものを選択し、その周波数を求める回路である。不動点の選択は、詳細に後述する式(11)による。この回路自体は本発明の特徴ではない。

【024】
基本周波数成分選択回路7は、それぞれの不動点に対応する搬送波対雑音比を比較し、最も高い搬送波対雑音比に対応する不動点を基本周波数成分として選択する。搬送波対雑音比という周波数依存性の無い客観的な尺度が推定できるようになったことにより、対数周波数軸上相似フィルタのように線形周波数軸上での形状が異なるとともに中心周波数が異なるようなフィルタ間の合理的な比較が可能になった。

【025】
周期性評価回路8は、基本周波数成分選択回路7で選択された基本周波数成分の周期性の度合いを、搬送波対雑音比計算回路5で求められた基本周波数成分に対応する搬送波対雑音比の値に基づいて評価する回路である。ここには、3種類の評価基準を用いることができ、それぞれ異なった3種類の実施例に対応する。

【026】
第一の評価基準は、搬送波対雑音比をそのまま用いるものである。信号対雑音比がそのまま周期成分と非周期成分の相対的振幅を反映していると解釈するものである。

【027】
第二の評価基準は、求められた搬送波対雑音比の値をそのまま用いるのではなく、抽出された基本周波数成分の周波数の変動と振幅の変動による影響を推定して補正してから評価基準として用いる方法である。

【028】
第三の評価基準は、求められた搬送波対雑音比の値から、求められた基本周波数成分の情報に基づいて基本波だけからなる信号を作成し、その作成した信号を元の信号を分析したものと同じ方法で分析して求めた作成信号の搬送波対雑音比を引いたものを、非周期成分として評価する方法である。

【029】
以上説明した部分、つまり図1の破線Aで囲まれた部分だけでも、高精度の音源情報分析装置として十分に利用することができる。

【030】
しかし、以下の部分、つまり図1の破線Bで囲まれた部分を追加することにより、さらに高精度の音源情報分析装置として利用することができる。

【031】
線形周波数軸上相似適応チャープフィルタ9では、後述する図8に示される、基本波成分選択回路により求められた基本周波数成分の基本周波数の値、周期性評価回路により求められた周期性の度合いに基づいて、周期成分が顕著な場合には、基本周波数に適応した周波数分析が行われる。ここでは、フィルタは中心周波数が線形周波数軸上で等間隔にならび、フィルタ形状も線形周波数軸上で平行移動により重なるような同じ形状を有している。このようなフィルタは、等価的に高速フーリエ変換により実現できる。また、後述する図8に示される、基本波成分選択回路により求められた基本周波数成分の時間微分により求められる基本周波数の瞬時周波数の変動速度に基づいて分析に先立って信号の時間軸が放物線状に変換される。この変換自体は、既に提案されている変換であるが、この変換をこの構成の下で用いることは新しい。

【032】
瞬時周波数周波数微分回路10においては、フィルタの出力から各フィルタ出力の瞬時周波数を計算し、さらに、隣接するフィルタの出力の瞬時周波数とそれぞれのフィルタの中心周波数に基づいて、各フィルタについて瞬時周波数の周波数方向の偏微分が計算される。これは、詳細に後述する式(20)に相当する。この計算結果は、瞬時周波数時間周波数微分回路11と搬送波対雑音比計算回路12とに送られる。

【033】
瞬時周波数時間周波数微分回路11においては、瞬時周波数周波数微分回路10において求められた各フィルタについて瞬時周波数の周波数方向の偏微分の時間方向の微分を計算することにより、各フィルタ出力の瞬時周波数の周波数方向の偏微分を時間方向に偏微分した値が求められる。これは、後述する式(22)に相当する。

【034】
搬送波対雑音比計算回路12は、各フィルタについての瞬時周波数の周波数方向の偏微分と、各フィルタ出力の周波数方向の偏微分を時間方向に偏微分した値に適切な加重をかけて、時間方向に短時間の加重付きの積分を行うことにより、各フィルタについての搬送波対雑音比の推定値を計算する。それぞれの偏微分に掛ける適切な重みは、それぞれのフィルタ形状とそれぞれのフィルタの中心周波数から、後述する式(12)により求められる。この加重は、分析中に変化するものではない。したがって、フィルタを設計した時点で決定することができる。こうして決定した加重の値を搬送波対雑音比計算回路12に組み込んでおけば良い。

【035】
不動点抽出回路13は、各フィルタの中心周波数と各フィルタ出力の瞬時周波数の対応関係から不動点として安定な性質を持つものを選択し、その周波数を求める回路である。不動点の選択は、後述する式(11)による。この回路自体は、本発明の特徴ではない。

【036】
帯域別周期性評価回路14では、それぞれのフィルタの受け持つ周波数帯域について搬送波対雑音比の値に基づいて周期性の程度を求め、それぞれの帯域の特徴を表す情報とする。

【037】
基本周波数改良回路15では、不動点抽出回路13で求められた不動点の周波数の情報と、搬送波対雑音比計算回路12で求められた搬送波対雑音比の値を基本周波数成分選択回路7で求められた基本周波数の粗い推定値を参照することにより、最終的な基本周波数の推定値の平均的な誤差の期待値が最も小さくなるように統合して改良された基本周波数が求められる。

【038】
なお、これらの処理と同等の処理をアナログ回路を用いて行うこともできる。その場合、入力回路1は、増幅ならびに分配の機能のみを有する。

【039】
以下、本発明の実施例である周波数から瞬時周波数への写像の不動点及びF0抽出方法について詳細に説明する。

【040】
ここでは、フィルタ中心周波数から出力の瞬時周波数(F-IF写像)への不動点における特徴に基づいて、信頼性のあるF0抽出方法を説明する。フィルタ包絡線のインパルス応答がガウス形の信号と2次のカーディナル・Bスプライン(cardinal B-spline)基底関数の畳み込みとして設定されると、不動点におけるF-IF写像の周波数方向の偏微分、時間周波数方向の偏微分により、顕著な正弦波上の成分(搬送波成分)とそれ以外の成分との比率(搬送波対雑音比)の推定値が分かる。対数周波数軸上で同じ形、また同じ間隔を有するフィルタ群を用いれば、搬送波対雑音比を基準とすることで、基本波成分を含むフィルタを選択することができる。すると信号の基本周波数は、フィルタ出力の瞬時周波数として算定される。提案した方法を音声と対応するEGG信号とを同時に記録したデータベースを用いて評価したところ、基準となるF0からの誤差が20%以上となるフレーム数は、全分析フレーム数の1%未満であることが分かった。本発明により、基本周期と同程度の時間分解能でのF0軌跡の追跡が可能になる。

【041】
以下、本発明の音源情報の抽出方法について詳細に述べる。

【042】
〔1〕まず、このセクションでは、後のセクションで論じるために必要な概念を導入する。まず、瞬時周波数について概観する。次に、音声の駆動機構を概観した後、音声を分析するときの概念として瞬時周波数の概念が非常に優れたものであることについて述べる。

【043】
〔1-1〕瞬時周波数
信号x(t)の瞬時周波数ω(t)を、信号のヒルベルト変換H[x(t)]を用いて定義する。

【044】

【数1】
JP0003417880B2_000002t.gif
【0045】
【数2】
JP0003417880B2_000003t.gif
【0046】ここで、s(t)は解析信号であり、j=√-1である。この定義を直接応用するには、位相の2nπの不定性に伴う不連続を取り除くために位相のアンラップ操作が必要となる。位相を直接用いる必要のない方法も、こうした困難を回避するために数多く提案された。

【047】

【数3】
JP0003417880B2_000004t.gif
【0048】位相成分φ(t)は、対応する瞬時周波数ω(t)との以下の関係を持つ

【049】

【数4】
JP0003417880B2_000005t.gif
【0050】ここで、φ(t0 )はt=t0 における初期位相である。

【051】
瞬時周波数ω(t)がゆっくりと変化し、信号のサンプリング間隔以下の時間内では、定数として近似することが可能であると仮定する。信号の短時間のフーリエ変換、つまりX(λ,t)は、以下のように定義される。

【052】

【数5】
JP0003417880B2_000006t.gif
【0053】ここで、ω(t)は時間窓を表す。各周波数地点における瞬時周波数を、2つの隣接する短時間フーリエ変換を用いて表す。

【054】

【数6】
JP0003417880B2_000007t.gif
【0055】実際は、Flanaganによる方法が計算の効率は良い。一方、上記の方程式は、離散時間信号の瞬時周波数について、概念的に簡単な解釈を提供する。この方程式においてω(λ,t)を、インパルス応答w(t)exp(jλt)を有するフィルタ出力の瞬時周波数として解釈することも可能である。
〔1-2〕音声の信号モデル
有声音は、周期的構造を持つと見なされる。しかし、音声信号の基本周波数の変化は、韻律的情報を表す上で重要な役割を果たしており、高速の動きを含んでいるため厳密には周期的ではない。さらに、調波成分においてより複雑な構造が存在する。

【056】
声門の周期的振動は、呼気流を変調して音源信号を作り出す。通常の有声音の場合には、変調された呼気流の波形には、一次導関数に周期的に不連続が生ずる。これらの不連続は、声帯の動きの開閉(時に転換点)に対応する。この不連続は高い周波数領域において高いエネルギーを有するため、こうした領域における励起の主な源となる。気流が通過することに伴って声帯の表面のリップルが移動するため、声門の閉止及び開き始めの時刻は、声帯の振動に完全に同期した一定の位相において生ずるとは限らない。変調された気流の波形ではエネルギーが低域に集中しているため、声門の動きは低周波領域における主な励起源である。これらの点により、調波成分の瞬時周波数は、基本周波数の正確な整数の倍数ではない。

【057】
こうした観察によって、正弦波モデルの基本となる式として知られる以下のような有声音のモデルが導かれる。

【058】

【数7】
JP0003417880B2_000008t.gif
【0059】ここで、ω0 (t)は共通の基本周波数を表し、ωk (t)はk番目の成分の調波からの外れを表す。φ(t)は初期位相を表す。

【060】
この方程式は、基本周波数として様々な異なったものがあり得ることを示唆している。なぜなら、どの高調波成分を基準として基本周波数を計算しても構わないからである。しかし、第一の成分とより高い周波数領域の成分との間には大きな差異が存在する。低い周波数領域における主な励起源が声帯の動きのみであるとき、高周波数領域における主な励起源は、声帯の動きとその表面上の動く波動の両方に依存する不連続の瞬間である。従って、音声信号の基本波成分を表すための基本波成分の瞬時周波数に依存することは、より簡単なモデルに対応し、かつ実際に基本的であるため、合理的なことであろう。

【061】
〔2〕F-IF写像の不動点を用いた基本周波数推定
主要な成分以外の成分によって生じる干渉が瞬時周波数算定において主な誤差の原因であるため、正確に基本周波数を推定するために、基本波成分を分離しておくことが必要である。そうしたフィルタは、フィルタリングによる周波数及び時間方向の滲みをできるだけ避けるように設計することが必要である。

【062】
ガウス包絡線及び2次のcardinal B-spline関数の基底関数より設計されたフィルタインパルス応答により、この目的のために有用なフィルタのセットが提供される。

【063】
〔2-1〕フィルタ設計
フィルタを用いることによるスペクトルならびに時間の歪みを回避するためには、フィルタは高い時間分解能とともに隣接する調波からの干渉を十分に排除する能力を持つことが必要である。この点は、音声信号は本質的に非定常であるため、音声信号にとって不可欠である。下記のガウス包絡線より成る等方的Gabor関数は、時間周波数領域では不確定性が最小であり、時間分解能と周波数分解能の間のトレードオフの関係に関して適当な妥協点を与えるものである。“等方的”という語は、搬送波の波長及び搬送波の周波数のそれぞれについて、関数の時間周波数表示が同等の時間分解能及び周波数分解能を有するということを表している。

【064】

【数8】
JP0003417880B2_000009t.gif
【0065】
【数9】
JP0003417880B2_000010t.gif
【0066】ここで、W(ω)はインパルス応答ω(t)のフーリエ変換、またω0 =2πf0 はフィルタの中心周波数である。

【067】
2次のcardinal B-spline関数の基底関数を等方的ガウス包絡線関数で畳み込むことにより、隣接する調波成分によって生ずる干渉を抑制するために隣接調波の周波数の付近に2次の零点が加えられる。

【068】

【数10】
JP0003417880B2_000011t.gif
【0069】ここで*は畳み込みを表す。

【070】
〔2-2〕正弦波状の成分の抽出
支配的な正弦波状信号のみがフィルタの実効的な通過域の中にあると仮定しよう。この時、フィルタ出力の瞬時周波数は周波数、つまり支配的正弦波状の成分のωd によって決定される。換言すれば、フィルタ出力の瞬時周波数は、そうしたフィルタが共通の支配的正弦波状の成分を共有するとき、ほとんど同一である。正弦波状の成分の周波数をωS (t)で表す。これによって、ωS (t)の近傍に不動点が存在するようになる。ωS (t)より低い中心周波数を持つフィルタの出力の瞬時周波数は、その中心周波数よりも高い。その一方、ωS (t)より高い中心周波数を持つフィルタの出力の瞬時周波数は、その中心周波数よりも低い。中心周波数がこれら2つの中心周波数の間で変化するときに出力瞬時周波数は連続的に変化するため、フィルタ出力の瞬時周波数がその中心周波数と一致する地点が存在するが、これが不動点である。不動点の上側のフィルタと下側のフィルタの中心周波数の不動点の周波数からのずれは任意に小さくできるので、結局、不動点の周波数はωS (t)と一致する。

【071】
フィルタの中心周波数をλで表し、またωi (λ,t)でフィルタ出力の瞬時周波数を表す。このようにすると、次の式で定義された不動点の集合は、信号に含まれる正弦波状の成分の候補を与える。

【072】

【数11】
JP0003417880B2_000012t.gif
【0073】ここで、εは任意の小さな定数を表す。

【074】
〔3-3〕搬送波対雑音比の推定
支配的な正弦波状の成分のみが実効的な通過域に存在するとき、出力瞬時周波数は、正弦波状の成分の周波数と全く同じである。背景雑音が支配的正弦波状の成分に関して十分に小さい場合、不動点の近くのフィルタ出力の瞬時周波数の誤差は、正弦波状の成分として表された背景雑音の加重和によって近似される。この雑音成分が不動点のまわりのフィルタの実効的な通過域において均一に分布していると仮定するならば、支配的な正弦波状の成分の周波数とフィルタ出力の瞬時周波数の誤差の分散は、背景雑音の相対的な誤差の分散に比例する。なお、相対的な誤差の分散を平均自乗誤差として表したものの逆数が搬送波対雑音比である。背景雑音の相対的な誤差の分散は、以下の式を用いて、不動点におけるF-IF写像の周波数偏微分及び時間周波数偏微分から推定することができる。

【075】
相対的誤差分散をσ2 で表す。

【076】

【数12】
JP0003417880B2_000013t.gif
【0077】ここで、Wp (ω)はフィルタ応答ωp (t)のフーリエ変換を表す。実際には、相対的誤差分散の確かな推定値を求めるためには時間的平滑化を取り入れることが必要である。

【078】
〔2-4〕基本波成分の選択
システムが時間分解能と周波数分解能の間の最良の妥協点を実現するためには、目的とする主要な正弦波状の成分に関する情報を用いてフィルタを設計することが必要である。基本周波数抽出のそれを設計するには、基本周波数についての事前の情報がまた必要とされる。しかし、そのような情報は、分析するために予め利用することはできない。こうした困難を回避する一つの方法として、体系的に設計された形状と中心周波数を持つ一連のフィルタを用いる方法がある。

【079】
一連のフィルタが対数周波数軸上に等しい周波数間隔を持ち、対数周波数軸上に同じ形状を持つと仮定する。フィルタの間隔が十分に密であれば、事実上、あらゆる不動点はフィルタ中心に位置する。すると、基本周波数に対応する不動点から構成されるフィルタが最小の相対的誤差分散を有する。これは、他のフィルタが実効的な通過域の中に必然的に複数の調波成分や雑音成分を含んでしまうからである。換言すれば、相対的誤差分散が最小であることは、不動点が基本波成分を表すという証拠である。この議論の進め方は、本願発明者が以前の発明で用いた『基本波らしさ』の概念を導いた時と同様である。しかし、以前の考えは、FMとAMの大きさの合計を測定する、直観的に取り入れた方法に基づいたものであり、確実な数学的基礎に基づいたものではない。また、相対的誤差分散は、周波数の推定誤差と直接的に対応していることもあって、より適切である。

【080】
以上の検討に基づき、F0の事前情報に依存しない基本波成分の選択手続きは、以下のようにまとめられる。

【081】
●ステップ1:対数関数軸上に等間隔に置かれた中心周波数を持つ一連のフィルタを用意する。中心周波数はF0の存在しうる範囲を覆わなければならない(すなわち40Hz~800Hz)。間隔は十分に密でなくてはならない(すなわち1オクターブにつき24フィルタ)。

【082】
●ステップ2:分析対象の信号を用意したフィルタへ送り込む。

【083】
●ステップ3:各フィルタ出力につき瞬時周波数を算定する。

【084】
●ステップ4:選択基準を用いて不動点を抽出する〔式(11)〕。

【085】
●ステップ5:各不動点につき相対的誤差分散を算定する〔式(12)〕。

【086】
●ステップ6:各分析フレームにおいて、最小の相対的誤差分散を有する不動点を選択する。こうして選択された不動点は、基本波成分の最も有力な候補である。

【087】
基本周波数は、抽出した基本波成分の瞬時周波数として推定される。

【088】
実際には、基本波成分を選択する最終ステップは、録音の時の環境騒音等の影響を防ぐために挿入される高域通過フィルタの影響や低い周波数における信号対雑音比の劣化の影響によって、基本波成分に対応する相対的誤差分散の大きさが十分に小さくならないため、失敗することがある。この問題の影響は、相対的誤差分散が十分に小さな部分から求められるF0軌跡を、その前後に連続性を追跡しながら探索して延長することによって軽減することができる。

【089】
〔2-5〕余分の正弦波状の成分によって生じた干渉
顕著な正弦波状の成分の一つに中心を置くフィルタ出力信号を、下記の方程式によって近似することができる。ε≪1と仮定する。

【090】

【数13】
JP0003417880B2_000014t.gif
【0091】
【数14】
JP0003417880B2_000015t.gif
【0092】g(ω)は、ω=1において最大値1を持つとする。周波数領域の重み関数g(ω)は滑らかな連続関数であり、ω=0の周辺には特異点がないものとする。この時、0付近のg(ω)のTaylor展開は、ω≪1なら、g(ω)≒1であることが分かる。これらの仮定を用いれば、上記(14)式は次のように近似される。

【093】

【数15】
JP0003417880B2_000016t.gif
【0094】ここで、瞬時周波数を調べるためには、この方程式を極形式に書き換える必要がある。

【095】

【数16】
JP0003417880B2_000017t.gif
【0096】条件をω≪1及びε≪1と仮定するので、その方程式はさらに近似される。

【097】

【数17】
JP0003417880B2_000018t.gif
【0098】信号s(t)の位相関数φ(t)を下記のように近似する。

【099】

【数18】
JP0003417880B2_000019t.gif
【0100】これは、干渉信号により位相変調が生ずることを示している。

【101】
信号s(t)の瞬時周波数ωi (t)は位相関数の時間導関数より導かれる。それは下記のようになる。

【102】

【数19】
JP0003417880B2_000020t.gif【0103】〔2-6〕搬送波対雑音比の実際的な推定方法
ここで求めたいのは、問題の正弦波状の成分に対する搬送波対雑音比である。それを瞬時値だけに基づいて計算できることが望ましい。換言すれば、特定の帯域通過フィルタの通過域内でのεの平均を求めるのである。つまり、基本的な考えは、sin2 +cos2 =1の関係を用いて、ωi (t)における正弦波状の変動を除去する方法を導くことである。不動点における幾何学的属性は、これを達成する鍵になる。

【104】
〔2-6-1〕周波数偏微分
瞬時周波数ωi (t)の周波数に関する偏微分から次式が得られる。

【105】

【数20】
JP0003417880B2_000021t.gif【0106】干渉する成分が一つだけの場合、t0 =2π/δで決まる一周期分を観測するだけでεの値を推定することが可能である。しかし、一般に、同時に複数の成分が存在し得る。

【107】
〔2-6-2〕時間周波数偏微分
時間に関する偏微分を求めることにより、前の余弦波位相を有する信号に対応する正弦波位相の対応物を求めるのは、もっともと思われる。

【108】

【数21】
JP0003417880B2_000022t.gif【0109】求める正弦波位相変数を第3項で得る。しかし、音声のような信号は基本周波数が高速に変化し、その変化についての事前情報も得られないため、初めの2項を除去することはできない。

【110】
次の段階は、方程式(21)の周波数に関する偏微分を導くことである。これは、以下のようになる。

【111】

【数22】
JP0003417880B2_000023t.gif【0112】これは、正弦波位相で変化する成分のみから成る。

【113】
〔3〕以下、具体的数値例について述べる。

【114】
人工的信号及び実際の音声試料を用いた分析例について述べる。

【115】
〔3-1〕付加的な白色雑音を持つインパルス列
図2にフィルタ中心周波数から出力瞬時周波数への写像を示す。200Hzパルス列と白色雑音(S/Nは20dB)との合成信号を、対数周波数軸上で等間隔に配置したフィルタを用いて分析する。200Hzに対応する不動点付近の瞬時周波数は均一のままである点に注意されたい。他の不動点は、このような安定性を示していない。

【116】
図3に搬送波対雑音比の計算に用いられる様々な中間的な変数の値と最終的に得られた結果の例を示す。この図において、それらの平方根の値を図3上に記入する。実線で示される周波数偏微分の系列と破線の時間周波数偏微分との間にπ/2の位相差がうまく導入されていることに注意されたい。また、135ms付近の点において、周波数偏微分と時間周波数偏微分の重み付き自乗平均値に、成分正弦波の間の干渉に起因する鋭い窪みが生じていることが分かる。この重み付き自乗平均値に前述の平滑化を適用することにより、滑らかな搬送波対雑音比の推定値が求められる。

【117】
図4に搬送波対雑音比の時間-周波数(時間-チャネル番号)表示を画像として表示する。また、図4では求められた不動点をその上に重ねて表示している。図では暗さが搬送波対雑音比の大きさに対応しており、暗いほど搬送波対雑音比が大きい。

【118】
200Hz付近の抽出した不動点のほぼ全ては、基本波成分に対応する。他の不動点の中には200Hz付近に位置するものはない。100Hz未満の領域では抽出した不動点が無作為に分布しているが、それが互いに近づく傾向は弱い。より周波数の高い領域では、不動点は調波周波数付近にとどまる傾向がある。

【119】
図5に瞬時周波数と搬送波対雑音比によって張られる平面上での不動点の分布を示す。基本成分に対応する不動点は、明らかに別個のものである。調波周波数付近の不動点の搬送波対雑音比は、調波周波数において最大値を示すという点に注意されたい。このような現象が生ずるのは、隣接する調波成分が同程度の大きさで混合される場合に相互の干渉が非常に大きくなるからである。

【120】
図6に最小点と残りの点の搬送波対雑音比の分布を示す。基本波成分に対応する不動点は、はっきりと区別できる分布を有することが分かる。

【121】
〔3-2〕持続母音
図7に男性の話者による持続した日本語の母音/a/を入力信号とした場合の、中心周波数から瞬時周波数への写像を示す。話者には、持続母音の発声に際しては一定(約130Hz)の基本周波数を保つよう指示した。信号の標本化周波数は22050Hz、量子化ビット数は16bitであった。パルス列の場合のように、基本周波数に対応する不動点付近では、写像は実質的には平坦である。

【122】
図8に瞬時周波数と搬送波対雑音比によって張られる平面上での不動点の分布を示す。基本波成分に対応する不動点は、130Hz付近に位置する。

【123】
図9に瞬時周波数と搬送波対雑音比の散布図を示す。この図から基本波成分付近の不動点が非常に小さな搬送波対雑音比を有することは明らかである。パルス列の場合のように、調波成分付近の不動点は、調波周波数において最大の搬送波対雑音比を示す。基本波成分についての搬送波対雑音比は約40dBであり、持続母音のF0が非常に安定していることを示す。

【124】
図10に度数分布表示における同じデータを示す。この図から分布が分離していることは明らかである。

【125】
〔3-3〕自然な韻律を有する母音連鎖
図11に男性話者による、連続的に発音された母音連鎖より抽出した不動点の時間周波数散布図を示す。以前の結果と同様、この図に基本波成分に対応する軌跡が滑らかに連続する不動点の集まりとしてはっきり見える。第一のフォルマントに対応する不動点は、500msから700msのあたりにはっきりと見える。図12に不動点の搬送波対雑音比の時間経過を示す。この図では、有声音の部分が明瞭に分かる。有声部分では、基本波成分のみが十分に大きな搬送波対雑音比を示している。

【126】
図13に瞬時周波数と搬送波対雑音比の分布を示す。この図13と図11とを併せて考えれば、先読み用のバッファを用いることで、信頼性の高いF0追跡アルゴリズムを容易に実現することができる。

【127】
〔3-4〕同時EGG記録を用いたセンテンス(文)データベース
図14に基本周波数推定における誤差分布を示す。図の横軸は、音声信号から求められたF0とEEG信号から求められたF0の周波数の比を百分率で表したものである。横軸上の100%の位置は、誤差が0である場合に対応している。図14(a)は男性話者による基本周波数推定における誤差を、図14(b)は女性話者による基本周波数推定における誤差をそれぞれ示している。これらの図によると、男性話者の誤差は、女性話者のそれよりも大きいことが分かる。

【128】

【表1】
JP0003417880B2_000024t.gif【0129】表1に基本周波数抽出における誤差の統計を示す。 結果の中にはEGG信号の分析の誤差も含まれていることに注意する必要があるものの、これは非常に良い結果である。この結果は、不動点に基づいたF0推定法において基本波成分のみを用いた場合の性能の上限であるとみなすことができる。女性のデータはほぼ満足の行くものであるとの結論が出せるが、男性のデータはさらに改善が必要であると言える。図1の破線Bの部分は、このような場合の推定結果を改良するために用いられる。

【130】
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づいて種々の変形が可能であり、これらを本発明の範囲から排除するものではない。

【131】

【発明の効果】以上、詳細に説明したように、本発明によれば、以下のような効果を奏することができる。

【132】
(A)信号の中にある正弦波成分を精度よく確実に抽出することができるとともに、抽出された成分の影響を短時間の観測値から定量的に求めることができる。

【133】
(B)分析合成音声を合成するための高品質の音源情報(基本周波数及び周期性についての情報)の抽出を行うことができる。

【134】
(C)楽器音などの周期性を有する音の分析においても、周期性の確からしさを客観的な指標として求めることができため、分析結果に基づいて楽器音を変換・再合成する場合の、高品質の音源情報として用いることができる。また、汎用の分析装置として一般の信号の周期性の分析にも用いることができる。

【135】
(D)定量的に解釈の明確な量が求められるため、対数周波数軸上相似フィルタと線形周波数軸上相似適応チャープフィルタのように構造の異なったフィルタによる結果を有効に統合することができる。

【136】
(E)搬送波対雑音比の推定値は、そのままで、帯域フィルタあるいは周波数分析結果の評価に用いることができる。
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13