Top > Search of Japanese Patents > LEARNING DEVICE, LEARNING METHOD, VOICE SYNTHESIS DEVICE, VOICE SYNTHESIS METHOD AND PROGRAM

LEARNING DEVICE, LEARNING METHOD, VOICE SYNTHESIS DEVICE, VOICE SYNTHESIS METHOD AND PROGRAM UPDATE_EN

Patent code P190015893
File No. S2018-0851-N0
Posted date Mar 1, 2019
Application number P2018-151611
Publication number P2020-027168A
Date of filing Aug 10, 2018
Date of publication of application Feb 20, 2020
Inventor
  • (In Japanese)ヒュウ ティ ルオン
  • (In Japanese)山岸 順一
Applicant
  • (In Japanese)大学共同利用機関法人情報・システム研究機構
Title LEARNING DEVICE, LEARNING METHOD, VOICE SYNTHESIS DEVICE, VOICE SYNTHESIS METHOD AND PROGRAM UPDATE_EN
Abstract PROBLEM TO BE SOLVED: To provide a voice synthesis technique for an unknown speaker having a neural network structure which can cope with both cases of supervised adaptation and unsupervised adaptation.
SOLUTION: The learning device includes a text modality neural network (text modality NN) which converts text data into a first vector, a voice modality NN which converts voice waveform data into a second vector, and a common NN for generating an acoustic feature corresponding to a speaker code vector on a speaker space from the first or second vector. And a text modality NN and a common NN are learned based on first training data composed of the text data and the acoustic feature, and the voice modality NN and the common NN are learned by the second training data composed of the voice waveform data and the acoustic feature, and the speaker code vector for a speaker is estimated by using selectively the text modality NN and the common NN, and the voice modality NN and the common NN, according to third training data of the given speaker.
Outline of related art and contending technology (In Japanese)

近年のディープラーニングの進展によって、ニューラルネットワークを利用した音声合成システムの研究開発が進められている。

音声合成システムの一例として、特定話者のための音声合成システムがある。特定話者のための音声合成システムによると、特定話者の音声データとテキストデータとのペアを訓練データとして利用することによって、テキストデータを当該話者に対応する音声データに変換するニューラルネットワークが学習され、学習済みのニューラルネットワークを利用して、入力されたテキストデータが当該特定話者の音声によって再生される。

他の例として、複数話者のための音声合成システムがある。複数話者のための音声合成システムによると、複数話者の音声データとテキストデータとのペアを訓練データとして利用することによって、テキストデータを複数話者の何れか指定された話者に対応する音声データに変換するニューラルネットワークが学習され、学習済みのニューラルネットワークを利用して、入力されたテキストデータが当該指定された話者の音声によって再生される。

更なる他の例として、未知話者のための音声合成システムがある。典型的には、上述した複数話者のための音声合成システムに基づき、未知話者の音声データ及び/又はテキストデータを訓練データとして利用することによって、テキストデータを当該未知話者に対応する音声データに変換するニューラルネットワークが学習される。学習済みのニューラルネットワークを利用して、入力されたテキストデータが当該未知話者の音声によって再生される。

未知話者のための音声合成システムとして、未知話者の音声データとテキストデータとのペアを訓練データとして利用するもの(教師有り適応と呼ばれる)と、未知話者の音声データのみを訓練データとして利用するもの(教師なし適応と呼ばれる)とがある。

Field of industrial application (In Japanese)

本発明は、一般に音声合成技術に関し、より詳細には、ニューラルネットワークを利用した未知話者に対する話者適応技術に関する。

Scope of claims (In Japanese)
【請求項1】
 
メモリと、
プロセッサと、
を有する学習装置であって、
前記メモリは、
テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワークと、
音声波形データを第2のベクトルに変換する音声モダリティニューラルネットワークと、
前記テキストモダリティニューラルネットワーク及び前記音声モダリティニューラルネットワークに接続され、前記第1のベクトル又は前記第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通ニューラルネットワークとを格納し、
前記プロセッサは、
テキストデータと音響特徴量とから構成される第1の訓練データによって前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習し、
音声波形データと音響特徴量とから構成される第2の訓練データによって前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習し、
所与の話者の第3の訓練データに応じて、前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークと、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークとを選択的に利用して、前記所与の話者に対する前記話者コードベクトルを推定する学習装置。

【請求項2】
 
前記プロセッサは、
前記第1の訓練データのテキストデータを前記テキストモダリティニューラルネットワークに入力し、前記テキストモダリティニューラルネットワークから取得した第1のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第1の訓練データの音響特徴量との間の第1の誤差を算出し、
前記第2の訓練データの音声波形データを前記音声モダリティニューラルネットワークに入力し、前記音声モダリティニューラルネットワークから取得した第2のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第2の訓練データの音響特徴量との間の第2の誤差を算出し、
前記第1の誤差と前記第2の誤差との加重和に基づき、前記テキストモダリティニューラルネットワーク、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習する、請求項1記載の学習装置。

【請求項3】
 
前記プロセッサは、
前記第1の訓練データのテキストデータを前記テキストモダリティニューラルネットワークに入力し、前記テキストモダリティニューラルネットワークから取得した第1のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第1の訓練データの音響特徴量との間の第1の誤差を算出し、
前記第2の訓練データの音声波形データを前記音声モダリティニューラルネットワークに入力し、前記音声モダリティニューラルネットワークから取得した第2のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークの一部のレイヤから構成されるサブニューラルネットワークから第3のベクトルを取得し、前記共通ニューラルネットワークに入力された第1のベクトルに対して前記サブニューラルネットワークから第4のベクトルを取得し、前記第3のベクトルと前記第4のベクトルとの間の距離に基づき第3の誤差を算出し、
前記第1の誤差と前記第3の誤差との加重和に基づき、前記テキストモダリティニューラルネットワーク、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習する、請求項1又は2記載の学習装置。

【請求項4】
 
前記プロセッサは、
前記第3の訓練データがテキストデータと音響特徴量とから構成される場合、前記テキストデータを前記テキストモダリティニューラルネットワークに入力し、前記テキストモダリティニューラルネットワークから取得した第1のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第3の訓練データの音響特徴量との間の第4の誤差に基づき前記所与の話者の話者コードベクトルを決定する、請求項1乃至3何れか一項記載の学習装置。

【請求項5】
 
前記プロセッサは、
前記第3の訓練データが音声波形データと音響特徴量とから構成される場合、前記音声波形データを前記音声モダリティニューラルネットワークに入力し、前記音声モダリティニューラルネットワークから取得した第2のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第3の訓練データの音響特徴量との間の第5の誤差に基づき前記所与の話者の話者コードベクトルを決定する、請求項1乃至4何れか一項記載の学習装置。

【請求項6】
 
メモリと、
プロセッサと、
を有する音声合成装置であって、
前記メモリは、
学習済みのテキストモダリティニューラルネットワークと、
所与の話者に対して学習済みの共通ニューラルネットワークと、
を格納し、
前記プロセッサは、テキストデータを取得すると、前記格納されているテキストモダリティニューラルネットワーク及び共通ニューラルネットワークによって、前記テキストデータから前記所与の話者に対応する音響特徴量を生成する音声合成装置。

【請求項7】
 
テキストデータを取得し、前記所与の話者に対応して前記テキストデータから生成された音響特徴量を再生する入出力インタフェースを更に有する、請求項6記載の音声合成装置。

【請求項8】
 
メモリとプロセッサとを有するコンピュータによって実現される学習方法であって、
前記メモリは、
テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワークと、
音声波形データを第2のベクトルに変換する音声モダリティニューラルネットワークと、
前記テキストモダリティニューラルネットワーク及び前記音声モダリティニューラルネットワークに接続され、前記第1のベクトル又は前記第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通ニューラルネットワークとを格納し、
前記プロセッサが、テキストデータと音響特徴量とから構成される第1の訓練データによって前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習するステップと、
前記プロセッサが、音声波形データと音響特徴量とから構成される第2の訓練データによって前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習するステップと、
前記プロセッサが、所与の話者の第3の訓練データに応じて、前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークと、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークとを選択的に利用して、前記所与の話者に対する前記話者コードベクトルを推定するステップと、
を有する学習方法。

【請求項9】
 
メモリとプロセッサとを有するコンピュータによって実現される音声合成方法であって、
前記メモリは、
学習済みのテキストモダリティニューラルネットワークと、
所与の話者に対して学習済みの共通ニューラルネットワークと、
を格納し、
前記プロセッサが、テキストデータを取得すると、前記格納されているテキストモダリティニューラルネットワーク及び共通ニューラルネットワークによって、前記テキストデータから前記所与の話者に対応する音響特徴量を生成するステップを有する音声合成方法。

【請求項10】
 
テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワークと、音声波形データを第2のベクトルに変換する音声モダリティニューラルネットワークと、前記テキストモダリティニューラルネットワーク及び前記音声モダリティニューラルネットワークに接続され、前記第1のベクトル又は前記第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通ニューラルネットワークとを格納したメモリに接続されるプロセッサに、
テキストデータと音響特徴量とから構成される第1の訓練データによって前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習させ、
音声波形データと音響特徴量とから構成される第2の訓練データによって前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習させ、
所与の話者の第3の訓練データに応じて、前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークと、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークとを選択的に利用して、前記所与の話者に対する前記話者コードベクトルを推定させるプログラム。

【請求項11】
 
学習済みのテキストモダリティニューラルネットワークと、所与の話者に対して学習済みの共通ニューラルネットワークとを格納したメモリに接続されるプロセッサに、
テキストデータを取得すると、前記格納されているテキストモダリティニューラルネットワーク及び共通ニューラルネットワークによって、前記テキストデータから前記所与の話者に対応する音響特徴量を生成させるプログラム。
IPC(International Patent Classification)
Drawing

※Click image to enlarge.

JP2018151611thum.jpg
State of application right Published
(In Japanese)情報・システム研究機構 国立情報学研究所(NII)は、我が国唯一の情報系に特化した研究所です。NIIでは、外部資金による研究成果の社会還元を中心に、技術移転活動に積極的に取り組んでいます。上記の発明にライセンス対象や共同開発対象として関心をお持ちいただいた方は、国立情報学研究所 社会連携推進室までお気軽にお問合せください。


PAGE TOP

close
close
close
close
close
close
close