TOP > 国内特許検索 > 学習装置、学習方法、音声合成装置、音声合成方法及びプログラム

学習装置、学習方法、音声合成装置、音声合成方法及びプログラム

国内特許コード P190015893
整理番号 S2018-0851-N0
掲載日 2019年3月1日
出願番号 特願2018-151611
公開番号 特開2020-027168
出願日 平成30年8月10日(2018.8.10)
公開日 令和2年2月20日(2020.2.20)
発明者
  • ヒュウ ティ ルオン
  • 山岸 順一
出願人
  • 大学共同利用機関法人情報・システム研究機構
発明の名称 学習装置、学習方法、音声合成装置、音声合成方法及びプログラム
発明の概要 【課題】教師有り適応と教師なし適応との何れのケースにも対応可能な、ニューラルネットワーク構造を持った未知話者のための音声合成技術を提供する。
【解決手段】テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワーク(テキストモダリティNN)と、音声波形データを第2のベクトルに変換する音声モダリティNNと、第1又は第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通NNを備え、テキストデータと音響特徴量で構成される第1の訓練データによりテキストモダリティNN及び共通NNを学習し、音声波形データと音響特徴量で構成される第2の訓練データにより音声モダリティNN及び共通NNを学習し、所与の話者の第3の訓練データに応じて、テキストモダリティNN及び共通NNと、音声モダリティNN及び共通NNとを選択的に利用して、話者に対する話者コードベクトルを推定する。
【選択図】図1
従来技術、競合技術の概要

近年のディープラーニングの進展によって、ニューラルネットワークを利用した音声合成システムの研究開発が進められている。

音声合成システムの一例として、特定話者のための音声合成システムがある。特定話者のための音声合成システムによると、特定話者の音声データとテキストデータとのペアを訓練データとして利用することによって、テキストデータを当該話者に対応する音声データに変換するニューラルネットワークが学習され、学習済みのニューラルネットワークを利用して、入力されたテキストデータが当該特定話者の音声によって再生される。

他の例として、複数話者のための音声合成システムがある。複数話者のための音声合成システムによると、複数話者の音声データとテキストデータとのペアを訓練データとして利用することによって、テキストデータを複数話者の何れか指定された話者に対応する音声データに変換するニューラルネットワークが学習され、学習済みのニューラルネットワークを利用して、入力されたテキストデータが当該指定された話者の音声によって再生される。

更なる他の例として、未知話者のための音声合成システムがある。典型的には、上述した複数話者のための音声合成システムに基づき、未知話者の音声データ及び/又はテキストデータを訓練データとして利用することによって、テキストデータを当該未知話者に対応する音声データに変換するニューラルネットワークが学習される。学習済みのニューラルネットワークを利用して、入力されたテキストデータが当該未知話者の音声によって再生される。

未知話者のための音声合成システムとして、未知話者の音声データとテキストデータとのペアを訓練データとして利用するもの(教師有り適応と呼ばれる)と、未知話者の音声データのみを訓練データとして利用するもの(教師なし適応と呼ばれる)とがある。

産業上の利用分野

本発明は、一般に音声合成技術に関し、より詳細には、ニューラルネットワークを利用した未知話者に対する話者適応技術に関する。

特許請求の範囲 【請求項1】
メモリと、
プロセッサと、
を有する学習装置であって、
前記メモリは、
テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワークと、
音声波形データを第2のベクトルに変換する音声モダリティニューラルネットワークと、
前記テキストモダリティニューラルネットワーク及び前記音声モダリティニューラルネットワークに接続され、前記第1のベクトル又は前記第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通ニューラルネットワークとを格納し、
前記プロセッサは、
テキストデータと音響特徴量とから構成される第1の訓練データによって前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習し、
音声波形データと音響特徴量とから構成される第2の訓練データによって前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習し、
所与の話者の第3の訓練データに応じて、前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークと、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークとを選択的に利用して、前記所与の話者に対する前記話者コードベクトルを推定する学習装置。

【請求項2】
前記プロセッサは、
前記第1の訓練データのテキストデータを前記テキストモダリティニューラルネットワークに入力し、前記テキストモダリティニューラルネットワークから取得した第1のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第1の訓練データの音響特徴量との間の第1の誤差を算出し、
前記第2の訓練データの音声波形データを前記音声モダリティニューラルネットワークに入力し、前記音声モダリティニューラルネットワークから取得した第2のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第2の訓練データの音響特徴量との間の第2の誤差を算出し、
前記第1の誤差と前記第2の誤差との加重和に基づき、前記テキストモダリティニューラルネットワーク、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習する、請求項1記載の学習装置。

【請求項3】
前記プロセッサは、
前記第1の訓練データのテキストデータを前記テキストモダリティニューラルネットワークに入力し、前記テキストモダリティニューラルネットワークから取得した第1のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第1の訓練データの音響特徴量との間の第1の誤差を算出し、
前記第2の訓練データの音声波形データを前記音声モダリティニューラルネットワークに入力し、前記音声モダリティニューラルネットワークから取得した第2のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークの一部のレイヤから構成されるサブニューラルネットワークから第3のベクトルを取得し、前記共通ニューラルネットワークに入力された第1のベクトルに対して前記サブニューラルネットワークから第4のベクトルを取得し、前記第3のベクトルと前記第4のベクトルとの間の距離に基づき第3の誤差を算出し、
前記第1の誤差と前記第3の誤差との加重和に基づき、前記テキストモダリティニューラルネットワーク、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習する、請求項1又は2記載の学習装置。

【請求項4】
前記プロセッサは、
前記第3の訓練データがテキストデータと音響特徴量とから構成される場合、前記テキストデータを前記テキストモダリティニューラルネットワークに入力し、前記テキストモダリティニューラルネットワークから取得した第1のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第3の訓練データの音響特徴量との間の第4の誤差に基づき前記所与の話者の話者コードベクトルを決定する、請求項1乃至3何れか一項記載の学習装置。

【請求項5】
前記プロセッサは、
前記第3の訓練データが音声波形データと音響特徴量とから構成される場合、前記音声波形データを前記音声モダリティニューラルネットワークに入力し、前記音声モダリティニューラルネットワークから取得した第2のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第3の訓練データの音響特徴量との間の第5の誤差に基づき前記所与の話者の話者コードベクトルを決定する、請求項1乃至4何れか一項記載の学習装置。

【請求項6】
メモリと、
プロセッサと、
を有する音声合成装置であって、
前記メモリは、
学習済みのテキストモダリティニューラルネットワークと、
所与の話者に対して学習済みの共通ニューラルネットワークと、
を格納し、
前記プロセッサは、テキストデータを取得すると、前記格納されているテキストモダリティニューラルネットワーク及び共通ニューラルネットワークによって、前記テキストデータから前記所与の話者に対応する音響特徴量を生成する音声合成装置。

【請求項7】
テキストデータを取得し、前記所与の話者に対応して前記テキストデータから生成された音響特徴量を再生する入出力インタフェースを更に有する、請求項6記載の音声合成装置。

【請求項8】
メモリとプロセッサとを有するコンピュータによって実現される学習方法であって、
前記メモリは、
テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワークと、
音声波形データを第2のベクトルに変換する音声モダリティニューラルネットワークと、
前記テキストモダリティニューラルネットワーク及び前記音声モダリティニューラルネットワークに接続され、前記第1のベクトル又は前記第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通ニューラルネットワークとを格納し、
前記プロセッサが、テキストデータと音響特徴量とから構成される第1の訓練データによって前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習するステップと、
前記プロセッサが、音声波形データと音響特徴量とから構成される第2の訓練データによって前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習するステップと、
前記プロセッサが、所与の話者の第3の訓練データに応じて、前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークと、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークとを選択的に利用して、前記所与の話者に対する前記話者コードベクトルを推定するステップと、
を有する学習方法。

【請求項9】
メモリとプロセッサとを有するコンピュータによって実現される音声合成方法であって、
前記メモリは、
学習済みのテキストモダリティニューラルネットワークと、
所与の話者に対して学習済みの共通ニューラルネットワークと、
を格納し、
前記プロセッサが、テキストデータを取得すると、前記格納されているテキストモダリティニューラルネットワーク及び共通ニューラルネットワークによって、前記テキストデータから前記所与の話者に対応する音響特徴量を生成するステップを有する音声合成方法。

【請求項10】
テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワークと、音声波形データを第2のベクトルに変換する音声モダリティニューラルネットワークと、前記テキストモダリティニューラルネットワーク及び前記音声モダリティニューラルネットワークに接続され、前記第1のベクトル又は前記第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通ニューラルネットワークとを格納したメモリに接続されるプロセッサに、
テキストデータと音響特徴量とから構成される第1の訓練データによって前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習させ、
音声波形データと音響特徴量とから構成される第2の訓練データによって前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習させ、
所与の話者の第3の訓練データに応じて、前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークと、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークとを選択的に利用して、前記所与の話者に対する前記話者コードベクトルを推定させるプログラム。

【請求項11】
学習済みのテキストモダリティニューラルネットワークと、所与の話者に対して学習済みの共通ニューラルネットワークとを格納したメモリに接続されるプロセッサに、
テキストデータを取得すると、前記格納されているテキストモダリティニューラルネットワーク及び共通ニューラルネットワークによって、前記テキストデータから前記所与の話者に対応する音響特徴量を生成させるプログラム。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2018151611thum.jpg
出願権利状態 公開
※ 情報・システム研究機構 国立情報学研究所(NII)は、我が国唯一の情報系に特化した研究所です。NIIでは、外部資金による研究成果の社会還元を中心に、技術移転活動に積極的に取り組んでいます。上記の発明にライセンス対象や共同開発対象として関心をお持ちいただいた方は、国立情報学研究所 社会連携推進室までお気軽にお問合せください。


PAGE TOP

close
close
close
close
close
close
close