Top > Search of Japanese Patents > (In Japanese)声質変換装置、声質変換方法およびプログラム

(In Japanese)声質変換装置、声質変換方法およびプログラム meetings

Patent code P190015805
File No. (S2016-0415-N0)
Posted date Jan 24, 2019
Application number P2018-501721
Date of filing Feb 22, 2017
International application number JP2017006478
International publication number WO2017146073
Date of international filing Feb 22, 2017
Date of international publication Aug 31, 2017
Priority data
  • P2016-032488 (Feb 23, 2016) JP
Inventor
  • (In Japanese)中鹿 亘
  • (In Japanese)南 泰浩
Applicant
  • (In Japanese)国立大学法人電気通信大学
Title (In Japanese)声質変換装置、声質変換方法およびプログラム meetings
Abstract (In Japanese)予め入力話者を特定しなくとも目標話者の声質へ声質変換を可能とする声質変換装置を提供するため、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、音声情報およびその音声情報に対応する話者情報を確率モデルに順次入力することで、パラメータを学習により決定するパラメータ学習ユニットを備える。さらに、パラメータ学習ユニットにより決定されたパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う声質変換処理ユニットを備える。
Outline of related art and contending technology (In Japanese)

従来、入力話者音声の音韻情報を保存したまま、話者性に関する情報のみを出力話者のものへ変換させる技術である声質変換の分野では、モデルの学習時において、入力話者と出力話者の同一発話内容による音声対であるパラレルデータを使用するパラレル声質変換が主流であった。
パラレル声質変換としては、GMM(Gaussian Mixture Model)に基づく手法、NMF(Non-negative Matrix Factrization)に基づく手法、DNN(Deep Neural Network)に基づく手法など、様々な統計的アプローチが提案されている(特許文献1参照)。パラレル声質変換では、パラレル制約のおかげで比較的高い精度が得られる反面、学習データは入力話者と出力話者の発話内容を一致させる必要があるため、利便性が損なわれてしまう。

これに対して、モデルの学習時に上述のパラレルデータを使用しない非パラレル声質変換が注目を浴びている。非パラレル声質変換は、パラレル声質変換に比べて精度面で劣るものの自由発話を用いて学習を行うことができるため利便性や実用性は高い。非特許文献1は、入力話者の音声と出力話者の音声を用いて事前に個々のパラメータを学習しておくことで、学習データに含まれる話者を入力話者または目標話者とする声質変換を可能とするものである。

Field of industrial application (In Japanese)

本発明は任意話者声質変換を可能とする声質変換装置、声質変換方法およびプログラムに関する。

Scope of claims (In Japanese)
【請求項1】
 
入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ユニットと、
前記パラメータ学習ユニットにより決定された前記パラメータと前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットと、
を備える声質変換装置。

【請求項2】
 
前記パラメータは、前記音声情報と前記音韻情報との関係性の度合いを表すM、前記音韻情報と前記話者情報との関係性の度合いを表すV、前記話者情報と前記音声情報との関係性の度合いを表すU、前記話者情報によって決定される射影行列集合A、前記音声情報のバイアスb、前記音韻情報のバイアスc、および前記音声情報の偏差σの7つのパラメータからなり、
これら7つのパラメータは、前記音声情報をv、前記音韻情報をh、前記話者情報をsとすることで、以下の(A)式~(D)式によって関係付けられる、
(式省略)
請求項1に記載の声質変換装置。

【請求項3】
 
入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルに、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ステップと、
前記パラメータ学習ステップにより決定された前記パラメータと前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
を含む、声質変換方法。

【請求項4】
 
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルに、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ステップと、
前記パラメータ学習ステップにより決定された前記パラメータと目標話者の前記話者情報とに基づいて、入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
をコンピュータに実行させるプログラム。
IPC(International Patent Classification)
Drawing

※Click image to enlarge.

JP2018501721thum.jpg
State of application right Published


PAGE TOP

close
close
close
close
close
close
close