TOP > 国内特許検索 > 声質変換装置、声質変換方法およびプログラム

声質変換装置、声質変換方法およびプログラム

国内特許コード P200016642
整理番号 (S2017-0325-N0)
掲載日 2020年2月25日
出願番号 特願2019-503021
出願日 平成30年2月27日(2018.2.27)
国際出願番号 JP2018007268
国際公開番号 WO2018159612
国際出願日 平成30年2月27日(2018.2.27)
国際公開日 平成30年9月7日(2018.9.7)
優先権データ
  • 特願2017-036109 (2017.2.28) JP
発明者
  • 中鹿 亘
出願人
  • 国立大学法人電気通信大学
発明の名称 声質変換装置、声質変換方法およびプログラム
発明の概要 パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。パラメータ学習ユニットは、入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを用意する。その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、パラメータを決定する。パラメータ記憶ユニットは、パラメータを記憶する。声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
従来技術、競合技術の概要

従来、入力話者音声の音韻情報を保存したまま、話者性に関する情報のみを出力話者のものへ変換させる技術である声質変換の分野では、モデルの学習時において、入力話者と出力話者の同一発話内容による音声対であるパラレルデータを使用するパラレル声質変換が主流であった。
パラレル声質変換としては、GMM(Gaussian Mixture Model)に基づく手法、NMF(Non-negative Matrix Factrization)に基づく手法、DNN(Deep Neural Network)に基づく手法など、様々な統計的アプローチが提案されている(特許文献1参照)。パラレル声質変換では、パラレル制約のおかげで比較的高い精度が得られる反面、学習データとしては入力話者と出力話者の発話内容を一致させる必要があるため、利便性が損なわれてしまうという問題があった。

これに対して、モデルの学習時に上述のパラレルデータを使用しない非パラレル声質変換が注目を浴びている。非パラレル声質変換は、パラレル声質変換に比べて精度面で劣るものの自由発話を用いて学習を行うことができるため利便性や実用性は高い。非特許文献1には、入力話者の音声と出力話者の音声を用いて事前に個々のパラメータを学習しておくことで、学習データに含まれる話者を入力話者または目標話者とする声質変換を可能とする技術が記載されている。

産業上の利用分野

本発明は任意話者声質変換を可能とする声質変換装置、声質変換方法およびプログラムに関する。

特許請求の範囲 【請求項1】
入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定するパラメータ学習ユニットと、
前記パラメータ学習ユニットが決定したパラメータを記憶するパラメータ記憶ユニットと、
前記パラメータ記憶ユニットが記憶したパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットとを備え、
前記パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性を前記パラメータによって表す確率モデルを取得し、前記確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした
声質変換装置。

【請求項2】
さらに、前記パラメータ記憶ユニットが記憶したパラメータを前記入力話者の音声に適応して、適応後のパラメータを得る適応ユニットを備え、
前記パラメータ記憶ユニットは、前記適応ユニットで適応後のパラメータを記憶し、前記声質変換処理ユニットは、適応後のパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う
請求項1に記載の声質変換装置。

【請求項3】
前記パラメータ学習ユニットと前記適応ユニットは共通の演算処理部で構成され、
前記学習用の音声に基づいてパラメータを決定する処理と、前記入力話者の音声に基づいて適応後のパラメータを得る処理を、前記共通の演算処理部で行うようにした
請求項2に記載の声質変換装置。

【請求項4】
前記パラメータ学習ユニットが学習する際には、複数のクラスタが最も離れるように学習し、学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する
請求項1に記載の声質変換装置。

【請求項5】
前記声質変換処理ユニットは、前記パラメータから前記目標話者の話者情報を得、得られた話者情報から前記目標話者の音声情報を得るようにした
請求項1に記載の声質変換装置。

【請求項6】
音声情報の特徴量v=[v,・・・,v]∈Rと、音韻情報の特徴量h=[h,・・・,h]∈{0,1},Σ=1との間に、話者情報の特徴量s=[s,・・・,s]∈{0,1},Σ=1に依存した双方な結合重みW∈RI×Jが存在すると仮定したとき、前記話者クラスタとして、話者クラスタc∈Rを導入し、話者クラスタcを、
(式省略)
(但し、L∈RK×R=[λ・・・λ]の各列ベクトルλは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λ||=1,∀の制約を課す)と表現し、音響情報の特徴量のクラスタ依存項のバイアスパラメータをU∈RI×K、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをV∈RJ×K、として、話者非依存項、クラスタ依存項、および話者依存項のそれぞれを、
(式省略)
として示す
請求項1に記載の声質変換装置。

【請求項7】
入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定するパラメータ学習ステップと、
前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを前記入力話者の音声に適応した適応後のパラメータと、前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
を含む、声質変換方法。

【請求項8】
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定して記憶するパラメータ学習ステップと、
前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと、
をコンピュータに実行させるプログラム。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2019503021thum.jpg
出願権利状態 公開


PAGE TOP

close
close
close
close
close
close
close