TOP > 国内特許検索 > 声質変換装置、声質変換方法およびプログラム

声質変換装置、声質変換方法およびプログラム 新技術説明会

国内特許コード P190015805
整理番号 (S2016-0415-N0)
掲載日 2019年1月24日
出願番号 特願2018-501721
出願日 平成29年2月22日(2017.2.22)
国際出願番号 JP2017006478
国際公開番号 WO2017146073
国際出願日 平成29年2月22日(2017.2.22)
国際公開日 平成29年8月31日(2017.8.31)
優先権データ
  • 特願2016-032488 (2016.2.23) JP
発明者
  • 中鹿 亘
  • 南 泰浩
出願人
  • 国立大学法人電気通信大学
発明の名称 声質変換装置、声質変換方法およびプログラム 新技術説明会
発明の概要 予め入力話者を特定しなくとも目標話者の声質へ声質変換を可能とする声質変換装置を提供するため、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、音声情報およびその音声情報に対応する話者情報を確率モデルに順次入力することで、パラメータを学習により決定するパラメータ学習ユニットを備える。さらに、パラメータ学習ユニットにより決定されたパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う声質変換処理ユニットを備える。
従来技術、競合技術の概要

従来、入力話者音声の音韻情報を保存したまま、話者性に関する情報のみを出力話者のものへ変換させる技術である声質変換の分野では、モデルの学習時において、入力話者と出力話者の同一発話内容による音声対であるパラレルデータを使用するパラレル声質変換が主流であった。
パラレル声質変換としては、GMM(Gaussian Mixture Model)に基づく手法、NMF(Non-negative Matrix Factrization)に基づく手法、DNN(Deep Neural Network)に基づく手法など、様々な統計的アプローチが提案されている(特許文献1参照)。パラレル声質変換では、パラレル制約のおかげで比較的高い精度が得られる反面、学習データは入力話者と出力話者の発話内容を一致させる必要があるため、利便性が損なわれてしまう。

これに対して、モデルの学習時に上述のパラレルデータを使用しない非パラレル声質変換が注目を浴びている。非パラレル声質変換は、パラレル声質変換に比べて精度面で劣るものの自由発話を用いて学習を行うことができるため利便性や実用性は高い。非特許文献1は、入力話者の音声と出力話者の音声を用いて事前に個々のパラメータを学習しておくことで、学習データに含まれる話者を入力話者または目標話者とする声質変換を可能とするものである。

産業上の利用分野

本発明は任意話者声質変換を可能とする声質変換装置、声質変換方法およびプログラムに関する。

特許請求の範囲 【請求項1】
入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ユニットと、
前記パラメータ学習ユニットにより決定された前記パラメータと前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットと、
を備える声質変換装置。

【請求項2】
前記パラメータは、前記音声情報と前記音韻情報との関係性の度合いを表すM、前記音韻情報と前記話者情報との関係性の度合いを表すV、前記話者情報と前記音声情報との関係性の度合いを表すU、前記話者情報によって決定される射影行列集合A、前記音声情報のバイアスb、前記音韻情報のバイアスc、および前記音声情報の偏差σの7つのパラメータからなり、
これら7つのパラメータは、前記音声情報をv、前記音韻情報をh、前記話者情報をsとすることで、以下の(A)式~(D)式によって関係付けられる、
(式省略)
請求項1に記載の声質変換装置。

【請求項3】
入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルに、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ステップと、
前記パラメータ学習ステップにより決定された前記パラメータと前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
を含む、声質変換方法。

【請求項4】
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルに、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ステップと、
前記パラメータ学習ステップにより決定された前記パラメータと目標話者の前記話者情報とに基づいて、入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
をコンピュータに実行させるプログラム。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2018501721thum.jpg
出願権利状態 公開


PAGE TOP

close
close
close
close
close
close
close