Top > Search of International Patents > VOICE QUALITY CONVERSION DEVICE, VOICE QUALITY CONVERSION METHOD AND PROGRAM

VOICE QUALITY CONVERSION DEVICE, VOICE QUALITY CONVERSION METHOD AND PROGRAM

Foreign code F170009223
File No. (S2016-0415-N0)
Posted date Sep 14, 2017
Country WIPO
International application number 2017JP006478
International publication number WO 2017146073
Date of international filing Feb 22, 2017
Date of international publication Aug 31, 2017
Priority data
  • P2016-032488 (Feb 23, 2016) JP
Title VOICE QUALITY CONVERSION DEVICE, VOICE QUALITY CONVERSION METHOD AND PROGRAM
Abstract In order to provide a voice quality conversion device that makes it possible to convert voice quality to the voice quality of a target speaker, even without identifying in advance an inputting speaker, the present invention includes a parameter learning unit which: by using as variables voice information based on a voice, speaker information corresponding to the voice information, and phoneme information expressing a phoneme in the voice, prepares a probability model expressing, according to a parameter, the combining energy relationship among the voice information, the speaker information and the phoneme information; and by the sequential input to the probability model of voice information and speaker information corresponding to the voice information, determines the parameter by learning. In addition, the present invention includes a voice quality conversion processing unit which, on the basis of the parameter determined by the parameter learning unit and speaker information of a target speaker, performs voice quality conversion processing of voice information based on the voice of an input speaker.
Outline of related art and contending technology BACKGROUND ART
Conventional, the input of the speaker's voice while maintaining phonetic information, only information relating to the speaker output of a speaker to convert the field of voice conversion technology, at the time of learning of the model, the input speech by the speaker and the output of the speaker in the same parallel data to the speech-to-voice conversion is mainly used in parallel. Parallel as a voice, a method based on GMM(Gaussian Mixture Model), NMF(Non-negative Matrix Factrization) -based approaches, such as techniques based on DNN(Deep Neural Network), various statistical approach has been proposed (see Patent Document 1). In parallel the converted speech, by virtue of the parallel constraint and a relatively high accuracy is obtained on the other hand, the learning data is input and the output of the speaker utterance of the speaker it is required that the contents agree with each other, the convenience is lost.
On the other hand, upon learning of the model using the above parallel data of a non-parallel to the voice conversion is getting much attention. Voice conversion is non-parallel, parallel-to-voice conversion as compared to speech degrades the precision of the freedom can be performed by learning using the convenience and practicability is high. Non-Patent Document 1 is, input and output voice of a speaker using the voice of the individual parameters in advance can be learned, the learning data included in the speaker or target speaker and input speaker and the voice conversion according to the present invention.
Scope of claims (In Japanese)[請求項1]
入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ユニットと、
前記パラメータ学習ユニットにより決定された前記パラメータと前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットと、
を備える声質変換装置。
[請求項2]
前記パラメータは、前記音声情報と前記音韻情報との関係性の度合いを表すM、前記音韻情報と前記話者情報との関係性の度合いを表すV、前記話者情報と前記音声情報との関係性の度合いを表すU、前記話者情報によって決定される射影行列集合A、前記音声情報のバイアスb、前記音韻情報のバイアスc、および前記音声情報の偏差σの7つのパラメータからなり、
これら7つのパラメータは、前記音声情報をv、前記音韻情報をh、前記話者情報をsとすることで、以下の(A)式~(D)式によって関係付けられる、
請求項1に記載の声質変換装置。
[請求項3]
入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルに、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ステップと、
前記パラメータ学習ステップにより決定された前記パラメータと前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
を含む、声質変換方法。
[請求項4]
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルに、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ステップと、
前記パラメータ学習ステップにより決定された前記パラメータと目標話者の前記話者情報とに基づいて、入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
をコンピュータに実行させるプログラム。
  • Applicant
  • ※All designated countries except for US in the data before July 2012
  • THE UNIVERSITY OF ELECTRO-COMMUNICATIONS
  • Inventor
  • NAKASHIKA Toru
  • MINAMI Yasuhiro
IPC(International Patent Classification)
Specified countries National States: AE AG AL AM AO AT AU AZ BA BB BG BH BN BR BW BY BZ CA CH CL CN CO CR CU CZ DE DJ DK DM DO DZ EC EE EG ES FI GB GD GE GH GM GT HN HR HU ID IL IN IR IS JP KE KG KH KN KP KR KW KZ LA LC LK LR LS LU LY MA MD ME MG MK MN MW MX MY MZ NA NG NI NO NZ OM PA PE PG PH PL PT QA RO RS RU RW SA SC SD SE SG SK SL SM ST SV SY TH TJ TM TN TR TT TZ UA UG US UZ VC VN ZA ZM ZW
ARIPO: BW GH GM KE LR LS MW MZ NA RW SD SL SZ TZ UG ZM ZW
EAPO: AM AZ BY KG KZ RU TJ TM
EPO: AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR
OAPI: BF BJ CF CG CI CM GA GN GQ GW KM ML MR NE SN ST TD TG
Please contact us by E-mail or facsimile if you have any interests on this patent.

PAGE TOP

close
close
close
close
close
close