TOP > 国内特許検索 > 音源情報の抽出方法及び装置

音源情報の抽出方法及び装置 実績あり

国内特許コード P110004627
整理番号 A091P11
掲載日 2011年7月25日
出願番号 特願平11-192437
公開番号 特開2001-022369
登録番号 特許第3417880号
出願日 平成11年7月7日(1999.7.7)
公開日 平成13年1月26日(2001.1.26)
登録日 平成15年4月11日(2003.4.11)
発明者
  • 河原 英紀
  • 入野 俊夫
出願人
  • 株式会社国際電気通信基礎技術研究所
  • 国立研究開発法人科学技術振興機構
発明の名称 音源情報の抽出方法及び装置 実績あり
発明の概要 【課題】 フィルタ中心周波数から出力の瞬時周波数への不動点の性質を瞬時のデータから定量的に解釈の明瞭な量として検出することができる音源情報の抽出方法を提供する。
【解決手段】 周波数から瞬時周波数への写像の不動点を用いた音源情報の抽出方法において、各フィルタ2,9について、瞬時周波数周波数微分回路3,10により得られる瞬時周波数の周波数方向の偏微分と、瞬時周波数時間周波数微分回路4,11により得られる各フィルタ出力の周波数方向の偏微分を時間方向に偏微分した値に適切な加重をかけて、時間方向に短時間の加重付きの積分を行うことにより、各フィルタについての搬送波対雑音比の推定値を搬送波対雑音比計算回路5,12により計算し、搬送波対雑音比を求め、評価量の推定値を得る。
従来技術、競合技術の概要



瞬時周波数は時間変化信号に対する周波数概念を自然に拡大した概念である。瞬時周波数は音声のような非定常信号を表すために適した性質を多く有する。これは種々の信号処理課題に応用された;正弦波モデルに基づいた音声符号化、フォルマント抽出及びバンド幅推定、有声音の調波構造の抽出、基本周波数(F0)の抽出、また、聴覚情報処理の興味深い計算モデル等である。以下では正弦波モデルの成分正弦波の周波数、位相情報、基本周波数、およびそれらの周期性の強さ(あるいは周期成分と非周期成分の割合)等を音源情報と総称することにする。しかし、この概念に潜在する重要な可能性、特に、音声の音源情報の抽出についてはまだ十分には研究されていない。これらの側面に関する最近の研究により、瞬時周波数を利用すれば非常に優れた音源情報の抽出方法が導かれることが明らかとなった。

複数の帯域通過型フィルタの共通する通過帯域に顕著な正弦波成分がある場合、帯域通過型フィルタ出力の瞬時周波数は、中心周波数の異なったフィルタにわたって実質的には一定値をとるということが知られていた。換言すれば、フィルタ中心の周波数から瞬時出力周波数までの写像は、顕著な信号周波数の近くに不動点を有する。この性質は、複合音の調波成分及び音声のフォルマントのような顕著な共振を抽出するのに用いられる。また、これらの性質と、異なった聴覚神経間の同期発火現象とが関連するであろうことが指摘されており、対応する聴覚的実体を表すものとして『音縒り(synchrony strand)』によるモデル化が行われている。しかし、これらの考えを一貫性のあるF0抽出方法としてどのようにまとめたら良いかは、明確ではなかった。

本願発明者は、近年、STRAIGHTと呼ばれる高品質の音声分析、変換、合成システムを提案している。STRAIGHTは、古典的なチャネルボコーダの概念を一般化されたピッチ同期分析に基づいて洗練したものである。ここでは、従来から用いられている述語として『ピッチ同期分析』という用語を踏襲して用いた。このように、音声情報処理の分野では、ピッチという用語が基本周波数(F0)と同じ意味で用いられている。しかし、これは、不正確な言葉の使用法である。物理的な属性を表すF0と心理的属性を表すピッチは本来別のものである。本明細書では、特に心理的属性に言及するのではない限り、『ピッチ』という用語を用いないこととする。STRAIGHT法では、F0に適応した分析が行われているため、声門の一開閉サイクルとして定義される有音声の基本周期毎に、正確でかつ信頼性のあるF0情報が必要となる。従来から提案されている様々なF0抽出方法を適用して検討した結果、従来の方法では時間分解能についての要求条件と周波数の精度についての要求条件とを共に満たすことができないことが明らかになった。また、抽出されたF0に高速に変化する成分や不連続を含む場合には、それらの絶対値が小さくてもそのF0情報に基づいて合成された音声の知覚的品質が劣化することが分かった。さらに、知覚的に高品質な音声の合成には、無声/有声の判定が非常に大きな影響を及ぼすことが示され、数ミリ秒以内の時間的正確さが求められる場合のあることが分かった。また、逆に、特定の方向への偏りが無いのであれば、F0をゆっくりと変化させるトレンド成分には、合成された音声に対する知覚的な悪影響が無いことがわかった。

産業上の利用分野



本発明は、音源情報の抽出方法及び装置に関するものである。

特許請求の範囲 【請求項1】
周波数から瞬時周波数への写像の不動点を用いた音源情報の抽出方法において、
各フィルタ出力についての瞬時周波数の周波数方向の偏微分を行い、各フィルタ出力周波数方向偏微分し更に時間方向に偏微分した値に適切な加重をかけて、時間方向に短時間の加重付きの積分を行うことにより、各フィルタについての搬送波対雑音比の推定値を計算し、搬送波対雑音比を求め、評価量の推定値を得ることを特徴とする音源情報の抽出方法。

【請求項2】
請求項1記載の音源情報の抽出方法において、前記搬送波対雑音比による評価量の推定値に基づいて、対数周波数軸上相似フィルタを基本周波数に対応する不動点の選択に用い、基本周波数についての事前情報無しに基本周波数を抽出することを特徴とする音源情報の抽出方法。

【請求項3】
請求項2記載の音源情報の抽出方法において、前記対数周波数軸上相似フィルタと線形周波数軸上相似適応チャープフィルタとを組み合わせることにより基本周波数についての事前情報無しに基本周波数を抽出するとともに、該抽出された基本周波数の精度を改良することを特徴とする音源情報の抽出方法。

【請求項4】
周波数から瞬時周波数への写像の不動点を用いた音源情報の抽出装置において、
各フィルタ出力についての瞬時周波数の周波数方向の偏微分を行い第1の値を得る手段と、
各フィルタ出力を周波数方向に偏微分し、更に時間方向に偏微分を行い第2の値を得る手段と、
該第1と第2の値に適切な加重をかけて、時間方向に短時間の加重付きの積分を行うことにより、各フィルタについての搬送波対雑音比の推定値を計算し、搬送波対雑音比を求め、評価量の推定値を得る手段を備えたことを特徴とする音源情報の抽出装置。

【請求項5】
請求項4記載の音源情報の抽出装置において、前記搬送波対雑音比による評価量の推定値に基づいて、基本周波数に対応する不動点の選択を行う対数周波数軸上相似フィルタを具備し、基本周波数についての事前情報無しに基本周波数を抽出する手段を備えたことを特徴とする音源情報の抽出装置。

【請求項6】
請求項5記載の音源情報の抽出装置において、前記対数周波数軸上相似フィルタと線形周波数軸上相似適応チャープフィルタとを組み合わせることにより基本周波数についての事前情報無しに基本周波数を抽出するとともに、該抽出された基本周波数の精度を改良することを特徴とする音源情報の抽出装置。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP1999192437thum.jpg
出願権利状態 登録
参考情報 (研究プロジェクト等) CREST 脳を創る 領域
ライセンスをご希望の方、特許の内容に興味を持たれた方は、問合せボタンを押してください。


PAGE TOP

close
close
close
close
close
close
close