Top > Search of International Patents > VOICE QUALITY CONVERSION DEVICE, VOICE QUALITY CONVERSION METHOD AND PROGRAM

VOICE QUALITY CONVERSION DEVICE, VOICE QUALITY CONVERSION METHOD AND PROGRAM

Foreign code F180009512
File No. S2017-0325-C0
Posted date Nov 2, 2018
Country WIPO
International application number 2018JP007268
International publication number WO 2018159612
Date of international filing Feb 27, 2018
Date of international publication Sep 7, 2018
Priority data
  • P2017-036109 (Feb 28, 2017) JP
Title VOICE QUALITY CONVERSION DEVICE, VOICE QUALITY CONVERSION METHOD AND PROGRAM
Abstract This voice quality conversion device is provided with a parameter learning unit, a parameter storage unit and a voice quality conversion processing unit. The parameter learning unit prepares a probability model by means of a restricted Boltzmann machine assuming that there is a connection weight between a visible element representing input data and a hidden element representing potential information. The parameter learning unit defines, as the probability model, a plurality of speaker clusters having unique adaptive matrices, and determines parameters for each speaker by estimating weights for the plurality of speaker clusters. The parameter storage unit stores the parameters. The voice quality conversion processing unit performs voice quality conversion processing of voice information based on the voice of an input speaker on the basis of the parameters stored by the parameter storage unit and speaker information of a target speaker.
Outline of related art and contending technology BACKGROUND ART
Conventional, the input of the speaker's voice while maintaining phonetic information, only information relating to the speaker of the speaker output to convert the field of voice conversion technology, at the time of learning of the model, the input speech by the speaker and the output of the speaker in the same parallel data to the speech-to-voice conversion is mainly used in parallel., GMM(Gaussian Mixture Model), NMF(Non-negative Matrix Factrization) as the voice conversion method based on the parallel-based method such as a method based on, DNN(Deep Neural Network), various statistical approach has been proposed (see Patent Document 1).Voice conversion in parallel, by virtue of the parallel constraint and a relatively high accuracy is obtained on the other hand, as the learning data in the output speech of the speaker input and the speaker is required that the contents agree with each other, a problem that the convenience is impaired.
On the other hand, upon learning of the model described above does not use the parallel data of a non-parallel to the voice conversion is getting much attention.Voice conversion is non-parallel, parallel-to-voice conversion as compared to speech degrades the precision of the freedom can be performed by learning using the convenience and practicability is high.Is the non-patent document 1, the input voice of a speaker output the voice of the individual parameters in advance using the learning in advance, the learning data included in the speaker or target speaker and input speaker voice conversion technique can be described.
Scope of claims (In Japanese)請求の範囲
[請求項1]
 入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
 学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定するパラメータ学習ユニットと、
 前記パラメータ学習ユニットが決定したパラメータを記憶するパラメータ記憶ユニットと、
 前記パラメータ記憶ユニットが記憶したパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットとを備え、
 前記パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性を前記パラメータによって表す確率モデルを取得し、前記確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした
 声質変換装置。
[請求項2]
 さらに、前記パラメータ記憶ユニットが記憶したパラメータを前記入力話者の音声に適応して、適応後のパラメータを得る適応ユニットを備え、
 前記パラメータ記憶ユニットは、前記適応ユニットで適応後のパラメータを記憶し、前記声質変換処理ユニットは、適応後のパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う
 請求項1に記載の声質変換装置。
[請求項3]
 前記パラメータ学習ユニットと前記適応ユニットは共通の演算処理部で構成され、
 前記学習用の音声に基づいてパラメータを決定する処理と、前記入力話者の音声に基づいて適応後のパラメータを得る処理を、前記共通の演算処理部で行うようにした
 請求項2に記載の声質変換装置。
[請求項4]
 前記パラメータ学習ユニットが学習する際には、複数のクラスタが最も離れるように学習し、学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する
 請求項1に記載の声質変換装置。
[請求項5]
 前記声質変換処理ユニットは、前記パラメータから前記目標話者の話者情報を得、得られた話者情報から前記目標話者の音声情報を得るようにした
 請求項1に記載の声質変換装置。
[請求項6]
 音声情報の特徴量v=[v 1,・・・,v I]∈R Iと、音韻情報の特徴量h=[h 1,・・・,h J]∈{0,1} J,Σ jh j=1との間に、話者情報の特徴量s=[s 1,・・・,s R]∈{0,1} R,Σ rs r=1に依存した双方な結合重みW∈R I×Jが存在すると仮定したとき、前記話者クラスタとして、話者クラスタc∈R Kを導入し、話者クラスタcを、
(但し、L∈R K×R=[λ 1・・・λ R]の各列ベクトルλ rは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λ r|| 1=1,∀ rの制約を課す)と表現し、音響情報の特徴量のクラスタ依存項のバイアスパラメータをU∈R I×K、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをV∈R J×K、として、話者非依存項、クラスタ依存項、および話者依存項のそれぞれを、
として示す
 請求項1に記載の声質変換装置。
[請求項7]
 入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
 音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定するパラメータ学習ステップと、
 前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを前記入力話者の音声に適応した適応後のパラメータと、前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
 を含む、声質変換方法。
[請求項8]
 音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定して記憶するパラメータ学習ステップと、
 前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと、
をコンピュータに実行させるプログラム。
  • Applicant
  • ※All designated countries except for US in the data before July 2012
  • THE UNIVERSITY OF ELECTRO-COMMUNICATIONS
  • Inventor
  • NAKASHIKA Toru
IPC(International Patent Classification)
Please contact us by E-mail or facsimile if you have any interests on this patent.

PAGE TOP

close
close
close
close
close
close