Top > Search of Japanese Patents > SPECTRUM ANALYSIS DEVICE AND SPECTRUM CALCULATING DEVICE

SPECTRUM ANALYSIS DEVICE AND SPECTRUM CALCULATING DEVICE commons

Patent code P140010655
File No. 09-11
Posted date Jun 17, 2014
Application number P2009-146502
Publication number P2011-002703A
Patent number P5252452
Date of filing Jun 19, 2009
Date of publication of application Jan 6, 2011
Date of registration Apr 26, 2013
Inventor
  • (In Japanese)志賀 芳則
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title SPECTRUM ANALYSIS DEVICE AND SPECTRUM CALCULATING DEVICE commons
Abstract PROBLEM TO BE SOLVED: To provide a spectrum analysis device which outputs a parameter capable of easily interpolating shapes among a plurality of spectrums, without losing characteristic sections of the shape.
SOLUTION: A spectrum analysis device 60 includes a spectrum analysis section 74 for outputting a spectrum signal for expressing a spectrum envelope of speech by performing spectrum analysis on a speech signal; and a PDM encoder 220, which performs pulse density modulation (PDM) on the spectrum signal which is output by the spectrum analysis section 74 by considering a frequency axis as a time axis, and which outputs a frequency sequence including a frequency, when each pulse is output as a parameter for expressing the spectral envelope of the speech signal.
Outline of related art and contending technology (In Japanese)

音声スペクトルの表現(パラメータ)としてケプストラムがよく用いられる。例えば音声認識に用いられる音響モデルは隠れマルコフモデル(HMM)によることが多いが、その学習のための音響パラメータとしてケプストラムが用いられることが多い。ケプストラムを用いた音声のパラメータ化技術はよく研究されており、そのために必要なソフトウェア等も充実している。なお、音声認識等で用いられるケプストラム解析の際には、周波数を聴覚周波数スケールで変換したメル周波数表現が用いられることが多く、それに対するケプストラム解析で得られるケプストラム係数はメルケプストラムと呼ばれる。

HMMは、音声認識だけではなく音声合成にも用いられる。図1に、HMMを用いた従来の音声合成システムの概略構成を示す。図1を参照して、HMMを用いた従来の音声合成システム50は、コンテキストに依存した音素HMM62を記憶する記憶装置と、この音素HMM62の学習を行なうための学習部60と、入力されたテキスト66にしたがって、学習が完了した音素HMM62を使用して音声合成を行なうための合成部64とを含む。

学習部60は、多数の発話を記憶した音声コーパス70と、音声コーパス70内の各音素の音声波形に対して基本周波数抽出処理を行ない、基本周波数パラメータF0を出力するための基本周波数抽出部72と、音声コーパス70内の各音素の音声波形に対してスペクトル分析を行ない、音声の対数パワースペクトルの包絡を表すスペクトルパラメータ(ケプストラム係数)を出力するためのスペクトル分析部74とを含む。さらに学習部60は、基本周波数抽出部72からのF0パラメータ、スペクトル分析部74からのスペクトルパラメータ、及び音声コーパス70の各音素のコンテキストに依存した音素ラベル(以下このラベルを「コンテキスト依存ラベル」と呼ぶ。)を含む学習データを記憶するための学習データ記憶部76と、学習データ記憶部76に記憶された学習データに対する統計処理を行なって、音素HMM62の各コンテキスト依存音素モデルの確率密度関数等のパラメータの計算を行なうためのHMMモデル学習部78とを含む。コンテキストとしては、当該音素を含む文節のアクセント型、当該音素を含む単語の品詞、文の長さ、文内での当該音素の位置等が含まれる。

合成部64は、入力されたテキスト66に対してテキスト解析を行ない、テキスト66に対する音素列を示す音素ラベル列であって、テキスト66内で各音素のおかれたコンテキストに応じた音素ラベル列(「コンテキスト依存ラベル列」と呼ぶ。)を出力するためのテキスト解析部90と、テキスト解析部90からのコンテキスト依存ラベル列に応じ、音素HMM62内の音素HMMを連結し、与えられたコンテキスト依存ラベル列に対して最も尤度が高くなる音響パラメータ(F0及びスペクトルパラメータ)列をこれらHMM列から推定するための音響パラメータ生成部92と、音響パラメータ生成部92から出力されるF0にしたがって音源生成を行なう音源生成部94と、音源生成部94からの音源波形に対し、音響パラメータ生成部92から出力されるスペクトルパラメータにしたがって変調することにより、合成音声信号を出力するための合成フィルタ96とを含む。

このような音声合成システム50では、多数の音声により音素HMM62の学習を行なうことが必要である。この学習時には、結局のところ、特定音素コンテキストの音声スペクトルの、全サンプルにわたる平均が計算される。しかしそのような処理をケプストラムで行なうと、スペクトルの山(フォルマント)の位置(周波数)が異なる複数の音声スペクトルがケプストラム領域で平均されることになる。この場合、次のような問題が生じる。

図2を参照して、2つのスペクトル110及び112を考える。これらはそれぞれフォルマントに対応するピークを持つが、その周波数軸上の位置は互いにずれている。これらを単純に平均すると、スペクトル116が得られる。スペクトル116では、スペクトル110及びスペクトル112で明確に存在するピークがなまってしまっている。このスペクトルで仮に音声合成を行なうと、音質が低くなることは明らかである。本来は、スペクトル114のように、ピークが明確に生じるように両者の平均を算出すべきである。

Field of industrial application (In Japanese)

この発明は音声関連技術に関し、特に、音声を統計的に処理する際のパラメータ化の改善技術に関する。

Scope of claims (In Japanese)
【請求項1】
 
スペクトル信号の周波数軸上における強度に基づく分布を、周波数軸上で可変の間隔の周波数位置で発生されるパルスの密度に変換して表現するパルス密度表現を用いるスペクトル分析装置であって、
音声信号に対するスペクトル分析を行なって、音声のスペクトル包絡を表すスペクトル信号を出力するためのスペクトル分析手段と、
前記スペクトル分析手段により出力されたスペクトル信号の前記パルス密度表現における、各パルス位置に対応する周波数を、前記音声信号のスペクトル包絡を表すパラメータとして出力するためのパラメータ生成手段とを含む、スペクトル分析装置。

【請求項2】
 
前記スペクトル信号を入力とし、所定のしきい値により量子化を行なうデルタ・シグマ変調に基づいて得られるパルス密度表現の、各パルス位置に対応する周波数を、前記音声信号のスペクトル包絡を表すパラメータとして、前記パラメータ生成手段が出力することを特徴とする請求項1に記載のスペクトル分析装置。

【請求項3】
 
前記スペクトル分析手段が出力するスペクトル信号が、音声のスペクトル包絡を表すケプストラム係数列であることを特徴とする、請求項1又は請求項2に記載のスペクトル分析装置。

【請求項4】
 
前記パラメータ生成手段は、
前記スペクトル分析手段が出力するケプストラム係数の内、第0次のケプストラム係数を記憶する第1の記憶手段と、
前記スペクトル分析手段の出力するケプストラム係数の内、第1次以降、所定次数までのケプストラム係数により表されるスペクトル包絡のパルス密度表現における、各パルス位置に対応する周波数を周波数列として記憶する第2の記憶手段とを備え、
前記第1の記憶手段に記憶された前記第0次のケプストラム係数と、前記第2の記憶手段に記憶した周波数列とを、前記パラメータとして出力することを特徴とする、請求項3に記載のスペクトル分析装置。

【請求項5】
 
前記パラメータ生成手段は、
前記スペクトル分析手段が出力するスペクトル包絡の平均値を記憶する第1の記憶手段と、
前記スペクトル分析手段の出力するスペクトル包絡から、平均値を差し引いたスペクトルのパルス密度表現における、各パルス位置に対応する周波数を周波数列として記憶する第2の記憶手段とを備え、
前記第1の記憶手段に記憶された前記スペクトル包絡平均値と、前記第2の記憶手段に記憶した周波数列とを、前記パラメータとして出力することを特徴とする、請求項1又は請求項2に記載のスペクトル分析装置。

【請求項6】
 
前記パラメータ生成手段が出力する周波数列に対して、周波数列データを圧縮する処理を行なうパラメータ圧縮処理手段をさらに含み、前記圧縮された周波数列データを、前記スペクトル包絡を表すパラメータの全部または一部として出力する、請求項1~請求項5のいずれかに記載のスペクトル分析装置。

【請求項7】
 
前記パラメータ圧縮処理手段は、前記パラメータ生成手段が出力する周波数列を、三角級数展開に基づいて圧縮することを特徴とする、請求項6に記載のスペクトル分析装置。

【請求項8】
 
前記スペクトル分析手段が出力する音声のスペクトル包絡に対して、該スペクトル包絡の傾きを含む大局的な特徴を抑圧又は除去するスペクトル成形手段をさらに備え、該スペクトル成形手段において大局的な特徴が抑圧あるいは除去されたスペクトル包絡を、前記パラメータ生成手段へ入力することを特徴とする、請求項1~請求項7のいずれかに記載のスペクトル分析装置。

【請求項9】
 
前記スペクトル成形手段は、前記スペクトル分析手段が出力する音声のスペクトル包絡を表すケプストラムに対して、該ケプストラムの低次の係数を減じることによって、前記スペクトル包絡の傾きを含む大局的な特徴を抑圧又は除去することを特徴とする、請求項8に記載のスペクトル分析装置。

【請求項10】
 
請求項1~請求項9のいずれかに記載のスペクトル分析装置と、
前記スペクトル分析装置が第1及び第2のスペクトルに対してそれぞれ出力する第1及び第2のパラメータを受け、当該第1及び第2のパラメータ間で所定の補間演算をするための補間手段とを含む、スペクトル演算装置。

【請求項11】
 
前記補間手段は、前記第1及び第2のパラメータの内で、対応するパラメータの平均を演算するための平均手段を含む、請求項10に記載のスペクトル演算装置。
IPC(International Patent Classification)
Drawing

※Click image to enlarge.

JP2009146502thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close