Top > Search of Japanese Patents > (In Japanese)声質変換装置、声質変換方法およびプログラム

(In Japanese)声質変換装置、声質変換方法およびプログラム

Patent code P200016642
File No. (S2017-0325-N0)
Posted date Feb 25, 2020
Application number P2019-503021
Date of filing Feb 27, 2018
International application number JP2018007268
International publication number WO2018159612
Date of international filing Feb 27, 2018
Date of international publication Sep 7, 2018
Priority data
  • P2017-036109 (Feb 28, 2017) JP
Inventor
  • (In Japanese)中鹿 亘
Applicant
  • (In Japanese)国立大学法人電気通信大学
Title (In Japanese)声質変換装置、声質変換方法およびプログラム
Abstract (In Japanese)パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。パラメータ学習ユニットは、入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを用意する。その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、パラメータを決定する。パラメータ記憶ユニットは、パラメータを記憶する。声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
Outline of related art and contending technology (In Japanese)

従来、入力話者音声の音韻情報を保存したまま、話者性に関する情報のみを出力話者のものへ変換させる技術である声質変換の分野では、モデルの学習時において、入力話者と出力話者の同一発話内容による音声対であるパラレルデータを使用するパラレル声質変換が主流であった。
パラレル声質変換としては、GMM(Gaussian Mixture Model)に基づく手法、NMF(Non-negative Matrix Factrization)に基づく手法、DNN(Deep Neural Network)に基づく手法など、様々な統計的アプローチが提案されている(特許文献1参照)。パラレル声質変換では、パラレル制約のおかげで比較的高い精度が得られる反面、学習データとしては入力話者と出力話者の発話内容を一致させる必要があるため、利便性が損なわれてしまうという問題があった。

これに対して、モデルの学習時に上述のパラレルデータを使用しない非パラレル声質変換が注目を浴びている。非パラレル声質変換は、パラレル声質変換に比べて精度面で劣るものの自由発話を用いて学習を行うことができるため利便性や実用性は高い。非特許文献1には、入力話者の音声と出力話者の音声を用いて事前に個々のパラメータを学習しておくことで、学習データに含まれる話者を入力話者または目標話者とする声質変換を可能とする技術が記載されている。

Field of industrial application (In Japanese)

本発明は任意話者声質変換を可能とする声質変換装置、声質変換方法およびプログラムに関する。

Scope of claims (In Japanese)
【請求項1】
 
入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定するパラメータ学習ユニットと、
前記パラメータ学習ユニットが決定したパラメータを記憶するパラメータ記憶ユニットと、
前記パラメータ記憶ユニットが記憶したパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットとを備え、
前記パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性を前記パラメータによって表す確率モデルを取得し、前記確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした
声質変換装置。

【請求項2】
 
さらに、前記パラメータ記憶ユニットが記憶したパラメータを前記入力話者の音声に適応して、適応後のパラメータを得る適応ユニットを備え、
前記パラメータ記憶ユニットは、前記適応ユニットで適応後のパラメータを記憶し、前記声質変換処理ユニットは、適応後のパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う
請求項1に記載の声質変換装置。

【請求項3】
 
前記パラメータ学習ユニットと前記適応ユニットは共通の演算処理部で構成され、
前記学習用の音声に基づいてパラメータを決定する処理と、前記入力話者の音声に基づいて適応後のパラメータを得る処理を、前記共通の演算処理部で行うようにした
請求項2に記載の声質変換装置。

【請求項4】
 
前記パラメータ学習ユニットが学習する際には、複数のクラスタが最も離れるように学習し、学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する
請求項1に記載の声質変換装置。

【請求項5】
 
前記声質変換処理ユニットは、前記パラメータから前記目標話者の話者情報を得、得られた話者情報から前記目標話者の音声情報を得るようにした
請求項1に記載の声質変換装置。

【請求項6】
 
音声情報の特徴量v=[v1,・・・,vI]∈RIと、音韻情報の特徴量h=[h1,・・・,hJ]∈{0,1}J,Σjhj=1との間に、話者情報の特徴量s=[s1,・・・,sR]∈{0,1}R,Σrsr=1に依存した双方な結合重みW∈RI×Jが存在すると仮定したとき、前記話者クラスタとして、話者クラスタc∈RKを導入し、話者クラスタcを、
(式省略)
(但し、L∈RK×R=[λ1・・・λR]の各列ベクトルλrは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λr||1=1,∀rの制約を課す)と表現し、音響情報の特徴量のクラスタ依存項のバイアスパラメータをU∈RI×K、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをV∈RJ×K、として、話者非依存項、クラスタ依存項、および話者依存項のそれぞれを、
(式省略)
として示す
請求項1に記載の声質変換装置。

【請求項7】
 
入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定するパラメータ学習ステップと、
前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを前記入力話者の音声に適応した適応後のパラメータと、前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
を含む、声質変換方法。

【請求項8】
 
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定して記憶するパラメータ学習ステップと、
前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと、
をコンピュータに実行させるプログラム。
IPC(International Patent Classification)
Drawing

※Click image to enlarge.

JP2019503021thum.jpg
State of application right Published


PAGE TOP

close
close
close
close
close
close
close