TOP > 国内特許検索 > 声質変換装置、声質変換方法およびプログラム > 明細書

明細書 :声質変換装置、声質変換方法およびプログラム

発行国 日本国特許庁(JP)
公報種別 再公表特許(A1)
発行日 平成30年12月13日(2018.12.13)
発明の名称または考案の名称 声質変換装置、声質変換方法およびプログラム
国際特許分類 G10L  21/007       (2013.01)
FI G10L 21/007
国際予備審査の請求
全頁数 21
出願番号 特願2018-501721 (P2018-501721)
国際出願番号 PCT/JP2017/006478
国際公開番号 WO2017/146073
国際出願日 平成29年2月22日(2017.2.22)
国際公開日 平成29年8月31日(2017.8.31)
優先権出願番号 2016032488
優先日 平成28年2月23日(2016.2.23)
優先権主張国 日本国(JP)
指定国 AP(BW , GH , GM , KE , LR , LS , MW , MZ , NA , RW , SD , SL , ST , SZ , TZ , UG , ZM , ZW) , EA(AM , AZ , BY , KG , KZ , RU , TJ , TM) , EP(AL , AT , BE , BG , CH , CY , CZ , DE , DK , EE , ES , FI , FR , GB , GR , HR , HU , IE , IS , IT , LT , LU , LV , MC , MK , MT , NL , NO , PL , PT , RO , RS , SE , SI , SK , SM , TR) , OA(BF , BJ , CF , CG , CI , CM , GA , GN , GQ , GW , KM , ML , MR , NE , SN , TD , TG) , AE , AG , AL , AM , AO , AT , AU , AZ , BA , BB , BG , BH , BN , BR , BW , BY , BZ , CA , CH , CL , CN , CO , CR , CU , CZ , DE , DJ , DK , DM , DO , DZ , EC , EE , EG , ES , FI , GB , GD , GE , GH , GM , GT , HN , HR , HU , ID , IL , IN , IR , IS , JP , KE , KG , KH , KN , KP , KR , KW , KZ , LA , LC , LK , LR , LS , LU , LY , MA , MD , ME , MG , MK , MN , MW , MX , MY , MZ , NA , NG , NI , NO , NZ , OM , PA , PE , PG , PH , PL , PT , QA , RO , RS , RU , RW , SA , SC , SD , SE , SG , SK , SL , SM , ST , SV , SY , TH , TJ , TM , TN , TR , TT , TZ
発明者または考案者 【氏名】中鹿 亘
【氏名】南 泰浩
出願人 【識別番号】504133110
【氏名又は名称】国立大学法人電気通信大学
個別代理人の代理人 【識別番号】110000925、【氏名又は名称】特許業務法人信友国際特許事務所
審査請求 未請求
要約 予め入力話者を特定しなくとも目標話者の声質へ声質変換を可能とする声質変換装置を提供するため、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、音声情報およびその音声情報に対応する話者情報を確率モデルに順次入力することで、パラメータを学習により決定するパラメータ学習ユニットを備える。さらに、パラメータ学習ユニットにより決定されたパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う声質変換処理ユニットを備える。
特許請求の範囲 【請求項1】
入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ユニットと、
前記パラメータ学習ユニットにより決定された前記パラメータと前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットと、
を備える声質変換装置。
【請求項2】
前記パラメータは、前記音声情報と前記音韻情報との関係性の度合いを表すM、前記音韻情報と前記話者情報との関係性の度合いを表すV、前記話者情報と前記音声情報との関係性の度合いを表すU、前記話者情報によって決定される射影行列集合A、前記音声情報のバイアスb、前記音韻情報のバイアスc、および前記音声情報の偏差σの7つのパラメータからなり、
これら7つのパラメータは、前記音声情報をv、前記音韻情報をh、前記話者情報をsとすることで、以下の(A)式~(D)式によって関係付けられる、
JP2017146073A1_000013t.gif 請求項1に記載の声質変換装置。
【請求項3】
入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルに、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ステップと、
前記パラメータ学習ステップにより決定された前記パラメータと前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
を含む、声質変換方法。
【請求項4】
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルに、前記音声情報および前記音声情報に対応する前記話者情報を前記確率モデルに順次入力することで、前記パラメータを学習により決定するパラメータ学習ステップと、
前記パラメータ学習ステップにより決定された前記パラメータと目標話者の前記話者情報とに基づいて、入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
をコンピュータに実行させるプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は任意話者声質変換を可能とする声質変換装置、声質変換方法およびプログラムに関する。
【背景技術】
【0002】
従来、入力話者音声の音韻情報を保存したまま、話者性に関する情報のみを出力話者のものへ変換させる技術である声質変換の分野では、モデルの学習時において、入力話者と出力話者の同一発話内容による音声対であるパラレルデータを使用するパラレル声質変換が主流であった。
パラレル声質変換としては、GMM(Gaussian Mixture Model)に基づく手法、NMF(Non-negative Matrix Factrization)に基づく手法、DNN(Deep Neural Network)に基づく手法など、様々な統計的アプローチが提案されている(特許文献1参照)。パラレル声質変換では、パラレル制約のおかげで比較的高い精度が得られる反面、学習データは入力話者と出力話者の発話内容を一致させる必要があるため、利便性が損なわれてしまう。
【0003】
これに対して、モデルの学習時に上述のパラレルデータを使用しない非パラレル声質変換が注目を浴びている。非パラレル声質変換は、パラレル声質変換に比べて精度面で劣るものの自由発話を用いて学習を行うことができるため利便性や実用性は高い。非特許文献1は、入力話者の音声と出力話者の音声を用いて事前に個々のパラメータを学習しておくことで、学習データに含まれる話者を入力話者または目標話者とする声質変換を可能とするものである。
【先行技術文献】
【0004】

【特許文献1】特開2008- 58696号公報
【0005】

【非特許文献1】T. Nakashika, T. Takiguchi, and Y. Ariki: "Parallel-Data-Free, Many-To-Many Voice Conversion Using an Adaptive Restricted Boltzmann Machine,” Proceedings of Machine Learning in Spoken Language Processing (MLSLP) 2015, 6 pages, 2015.
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1では、パラレルデータを必要とするパラレル声質変換と比較して、パラレルデータを必要としない分利便性や実用性が高いが、事前に入力話者の音声を学習させておく必要があるという問題がある。また、変換時において事前に入力話者を指定する必要があり、入力話者の音声を問わず特定話者の音声を出力したいという要求を満たすことはできないという問題があった。
【0007】
本発明は、上記従来の問題点に鑑み提案されたものであり、その目的とするところは、予め入力話者を特定しなくとも目標話者の声質へ声質変換を可能とすることにある。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明の声質変換装置は、入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、パラメータ学習ユニットと、声質変換処理ユニットと、を備える。
パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、音声情報および音声情報に対応する話者情報を確率モデルに順次入力することで、パラメータを学習により決定する。
声質変換処理ユニットは、パラメータ学習ユニットにより決定されたパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
【発明の効果】
【0009】
本発明によれば、話者を考慮しつつ音声のみから音韻を推定することができるため、入力話者を特定しなくとも目標話者への声質変換が可能となる。
【図面の簡単な説明】
【0010】
【図1】本発明の一実施形態にかかる声質変換装置の構成例を示すブロック図である。
【図2】図1のパラメータ推定部が備える確率モデルThree-Way RBM(Restricted Boltzmann machine)を模式的に示す図である。
【図3】図1の声質変換装置のハードウェア構成例を示す図である。
【図4】実施形態の処理例を示すフローチャートである
【図5】図4の前処理の詳細例を示すフローチャートである。
【図6】図4の確率モデル3WRBMによる学習の詳細例を示すフローチャートである。
【図7】図4の声質変換の詳細例を示すフローチャートである。
【図8】図4の後処理の詳細例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明の好適な実施形態について説明する。

【0012】
<構成>
図1は本発明の一実施形態にかかる声質変換装置の構成例を示す図である。図1においてPC等により構成される声質変換装置1は、事前に、学習用音声信号と学習用音声信号に対応する話者の情報(対応話者情報)に基づいて学習を行っておくことで、任意の話者による変換用音声信号を目標とする話者の声質に変換し、変換済み音声信号として出力する。
学習用音声信号は、予め記録された音声データに基づく音声信号でもよく、また、マイク等により話者が話す音声(音波)を直接電気信号に変換したものでもよい。また、対応話者情報は、ある学習用音声信号と他の学習用音声信号とが同じ話者による音声信号か異なる話者による音声信号かを区別できるものであればよい。

【0013】
声質変換装置1は、パラメータ学習ユニット11と声質変換処理ユニット12とを備える。パラメータ学習ユニット11は、学習用音声信号と対応話者情報とに基づいて学習により声質変換のためのパラメータを決定するものである。また、声質変換処理ユニット12は、上述の学習によりパラメータが決定された後、決定されたパラメータと目標とする話者の情報(目標話者情報)とに基づいて変換用音声信号の声質を目標話者の声質に変換し、変換済み音声信号として出力するものである。

【0014】
パラメータ学習ユニット11は、音声信号取得部111と前処理部112と話者情報取得部113とパラメータ推定部114を備える。音声信号取得部111は、前処理部112に接続され、前処理部112および話者情報取得部113は、それぞれパラメータ推定部114に接続される。

【0015】
音声信号取得部111は、接続された外部機器から学習用音声信号を取得するものであり、例えば、マウスやキーボード等の図示しない入力部からのユーザの操作に基づいて学習用音声信号が取得される。また、音声信号取得部111は、マイクロフォンに接続され、話者の発話をリアルタイムに取り込むようにしてもよい。
前処理部112は、音声信号取得部111が取得した学習用音声信号を単位時間ごと(以下、フレームという)に切り出し、MFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算した後、正規化を行うことで学習用音声情報を生成する。

【0016】
対応話者情報取得部113は、音声信号取得部111による学習用音声信号の取得に紐付けられた対応話者情報を取得する。対応話者情報は、ある学習用音声信号の話者と他の学習用音声信号の話者とを区別できるものであればよく、例えば、図示しない入力部からのユーザの入力によって取得される。また、複数の学習用音声信号のそれぞれについて互いに話者が異なることが明らかであれば、学習用音声信号の取得に際して話者情報取得部が自動で対応話者情報を付与してもよい。例えば、パラメータ学習ユニット11が、10人の話し声の学習を行うと仮定すると、対応話者情報取得部113は、音声信号取得部111に入力中の学習用音声信号が、10人の内のどの話者の話し声の音声信号が入力中かを区別する情報(対応話者情報)を、ユーザの入力又は自動的に取得する。なお、ここで話し声の学習を行う人数を10人としたのは、あくまでも一例である。

【0017】
パラメータ推定部114は、音声情報推定部1141と話者情報推定部1142と音韻情報推定部1143とによって構成される確率モデルThree-Way RBM(3WRBM)を備える。
音声情報推定部1141は、音韻情報および話者情報ならびに各種パラメータを用いて音声情報を取得する。音声情報は、それぞれの話者の音声信号の音響ベクトル(スペクトル特徴量やケプストラム特徴量など)である。
話者情報推定部1142は、音声情報および音韻情報ならびに各種パラメータを用いて話者情報を推定する。話者情報は、話者を特定するための情報であり、それぞれの話者の音響が持つ話者ベクトルの情報である。この話者情報(話者ベクトル)は、同じ話者の音声信号に対しては全て共通であり、異なる話者の音声信号に対しては互いに異なるような、音声信号の発話者を特定させるベクトルである。
音韻情報推定部1143は、音声情報および話者情報ならびに各種パラメータにより音韻情報を推定する。音韻情報は、音声情報に含まれる情報の中から、学習を行う全ての話者に共通となる情報である。例えば、入力した学習用音声信号が、「こんにちは」と発話した音声の信号であるとき、この音声信号から得られる音韻情報は、その「こんにちは」と発話した言葉の情報に相当する。但し、本実施の形態例での音韻情報は、言葉に相当する情報であっても、いわゆるテキストの情報ではなく、言語の種類に限定されない音韻の情報であり、どのような言語で話者が話した場合にも共通となる、音声信号の中で潜在的に含まれる、話者情報以外の情報を表すベクトルである。
また、パラメータ推定部114が備える確率モデル3WRBMとしては、各推定部1141,1142,1143が推定した3つの情報(音声情報、話者情報、音韻情報)を持つことになるが、確率モデル3WRBMでは、これら音声情報、話者情報、音韻情報を持つだけでなく、3つの情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表すようにしている。
これら音声情報推定部1141、話者情報推定部1142および音韻情報推定部1143、音声情報、話者情報および音韻情報、各種パラメータ並びに確率モデル3WRBMについての詳細については後述する。

【0018】
声質変換処理ユニット12は、音声信号取得部121と前処理部122と話者情報設定部123と声質変換部124と後処理部125と音声信号出力部126とを備える。音声信号入力121、前処理部122、声質変換部124、後処理部125および音声信号出力部126は順次接続され、声質変換部124には、更にパラメータ学習ユニット11のパラメータ推定部114が接続される。

【0019】
音声信号取得部121は、変換用音声信号を取得し、前処理部122は、変換用音声信号に基づき変換用音声情報を生成する。本実施の形態例では、音声信号取得部121が取得する変換用音声信号は、任意の話者による変換用音声信号でよい。つまり、事前に学習がされていない話者の話し声が、音声信号取得部121に供給される。
音声信号取得部121および前処理部122は、上述したパラメータ学習ユニット11の音声信号取得部111および前処理部112の構成と同じであり、別途設置することなくこれらを兼用してもよい。

【0020】
話者情報設定部123は、声質変換先である目標話者を設定し目標話者情報を出力するものである。話者情報設定部123で設定する目標話者は、ここでは、パラメータ学習ユニット11のパラメータ推定部114が事前に学習処理して話者情報を取得した話者の中から選ばれる。話者情報設定部123は、例えば、図示しないディスプレイ等に表示された複数の目標話者の選択肢(パラメータ推定部114が事前に学習処理した話者の一覧など)からユーザが図示しない入力部によって1つの目標話者を選択するものであってもよく、また、その際に、図示しないスピーカにより目標話者の音声を確認できるようにしてもよい。

【0021】
声質変換部124は、目標話者情報に基づいて変換用音声情報に声質変換を施し、変換済み音声情報を出力する。声質変換部124は、音声情報設定部1241、話者情報設定部1242および音韻情報設定部1243を持つ。この音声情報設定部1241、話者情報設定部1242および音韻情報設定部1243は、上述のパラメータ推定部114において、確率モデル3WRBMが持つ音声情報推定部1141、話者情報推定部1142および音韻情報推定部1143と同等の機能を持つ。すなわち、音声情報設定部1241、話者情報設定部1242および音韻情報設定部1243には、それぞれ音声情報、話者情報および音韻情報が設定されるが、音韻情報設定部1243に設定される音韻情報は、前処理部122から供給される音声情報に基づいて得た情報である。一方、話者情報設定部1242に設定される話者情報は、パラメータ学習ユニット11内の話者情報推定部1142での推定結果から取得した目標話者についての話者情報(話者ベクトル)である。音声情報設定部1241に設定される音声情報は、これら話者情報設定部1242および音韻情報設定部1243に設定された話者情報および音韻情報と各種パラメータとから得られる。
なお、図1では声質変換部124を設ける構成を示したが、声質変換部124を別途設置することなく、パラメータ推定部114の各種パラメータを固定することで、パラメータ推定部114が声質変換の処理を実行する構成としてもよい。

【0022】
後処理部125は、声質変換部124で得られた変換済み音声情報に逆正規化処理を施し、更に逆FFT処理することでスペクトル情報をフレームごとの音声信号へ戻した後に結合し、変換済み音声信号を生成する。
音声信号出力部126は、接続される外部機器に対して変換済み音声信号を出力する。接続される外部機器としては、例えば、スピーカなどが挙げられる。

【0023】
図2はパラメータ推定部114の備える確率モデル3WRBMを模式的に示す図である。確率モデル3WRBMは、上述のとおり、音声情報推定部1141、話者情報推定部1142および音韻情報推定部1143を備え、これらが音声情報v、話者情報sおよび音韻情報hのそれぞれを変数とする以下の3変数同時確率密度関数の(1)式で表現される。なお、話者情報sと音韻情報hはバイナリベクトルであり、諸要素がオン(アクティブ)になっている状態を1で表す。

【0024】
【数1】
JP2017146073A1_000003t.gif

【0025】
ここで、(1)式のEは音声モデリングのためのエネルギー関数であり、Nは正規化項である。ここでエネルギー関数Eは、以下の(2)~(5)式に示されるように、音声情報と音韻情報との関係性の度合いを表すM、音韻情報と話者情報との関係性の度合いを表すV、話者情報と音声情報との関係性の度合いを表すU、更にMを線形変換する、話者情報sによって決定される射影行列集合A、音声情報のバイアスb、音韻情報のバイアスc、音声情報の偏差σの7つのパラメータ(Θ={M,A,U,V,b,c,σ})によって関係付けられる。

【0026】
【数2】
JP2017146073A1_000004t.gif

【0027】
ただし、A=Σ、M=[m,・・・,m]とし、便宜上A={Aとする。また、vは、vを要素ごとにパラメータσで除算したベクトルを表す。なお、本明細書中に示す「v」の「」は、上述の(2)式に示すように、本来は「-」が「v」の上に付加されるものであるが、本明細書では記載上の制約から「v-」と記載することとする。なお、v、s、hの「」、およびh^の「^」も、本来は文字の上に付加されるものであるが同様の理由により、明細書中では上述のとおり記載している。
このときそれぞれの条件付き確率は、以下の(3)~(5)式となる。

【0028】
【数3】
JP2017146073A1_000005t.gif

【0029】
ここでNは次元独立の多変量正規分布、Bは多次元ベルヌーイ分布、fは要素ごとのsoftmax関数を表す。
上述の(1)~(5)式において、R人の話者によるTフレームの音声情報に対する対数尤度を最大化するように各種パラメータを推定する。なお、各種パラメータ推定の詳細は後述する。

【0030】
図3は声質変換装置1のハードウェア構成例を示す図である。図3に示すように、声質変換装置1は、バス107を介して相互に接続されたCPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDD(Hard Disk Drive)/SSD(Solid State Drive)104、接続I/F(Interface)105、通信I/F106を備える。CPU101は、RAM103をワークエリアとしてROM102またはHDD/SSD104等に格納されたプログラムを実行することで、声質変換装置1の動作を統括的に制御する。接続I/F105は、声質変換装置1に接続される機器とのインターフェースである。通信I/Fは、ネットワークを介して他の情報処理機器と通信を行うためのインターフェースである。
音声信号の入出力ならびに話者情報の入力および設定は、接続I/F105または通信I/F106を介して行われる。図1で説明した声質変換装置1の機能は、CPU101において所定のプログラムが実行されることで実現される。プログラムは、記録媒体を経由して取得してもよく、ネットワークを経由して取得してもよく、ROMに組み込んで使用してもよい。また、一般的なコンピュータとプログラムの組合せでなく、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの論理回路を組むことで、声質変換装置1の構成を実現するためのハードウェア構成にしてもよい。

【0031】
<動作>
図4は、上述の実施形態の処理例を示すフローチャートである。図4に示すように、パラメータ学習処理として、声質変換装置1のパラメータ学習ユニット11の音声信号取得部111と話者情報取得部113とは、図示しない入力部によるユーザの指示に基づいて学習用音声信号とその対応話者情報とをそれぞれ取得する(ステップS1)。
前処理部112は、音声信号取得部111が取得した学習用音声信号からパラメータ推定部114に供給する学習用音声情報を生成する(ステップS2)。
以下、ステップS2の詳細については、図5を参照して説明する。図5に示すように、前処理部112は、学習用音声信号をフレームごと(例えば、5msecごと)に切り出し(ステップS21)、切り出された学習用音声信号にFFT処理などを施すことでスペクトル特徴量(例えば、MFCCやメルケプストラム特徴量)を算出する(ステップS22)。そして、ステップS22で得られたスペクトル特徴量の正規化処理(例えば、各次元の平均と分散を用いて正規化)を行うことで学習用音声情報vを生成する(ステップS23)。
学習用音声情報vは、話者情報取得部113によって取得された対応話者情報sとともにパラメータ推定部114へ出力される。

【0032】
パラメータ推定部114は、確率モデル3WRBMにおいて、学習用音声情報vと対応話者情報sを用いて各種パラメータ(M、V、U、A、b、c、σ)の推定のための学習を行う(ステップS3)。
R人(R≧2)の話者によるTフレームの音声データ(学習用音声情報と対応話者情報との組)X={v,st=1に対する対数尤度L、以下(6)式を最大化するように各種パラメータM、V、U、A、b、c、σを推定する。なお、tは時刻tを表し、v、s、hはそれぞれ時刻tにおける音声情報、話者情報、音韻情報を表す。

【0033】
【数4】
JP2017146073A1_000006t.gif

【0034】
次に、ステップS3の詳細について、図6を参照して説明する。まず、図6に示すように、確率モデル3WRBMにおいて、各種パラメータM、V、U、A、b、c、σに任意の値を入力し(ステップS31)、音声情報推定部1141に学習用音声情報vを入力し、話者情報推定部1142に対応話者情報sを入力する(ステップS32)。
そして、上述の(4)式により、学習用音声情報vと対応話者情報sとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hをサンプルする(ステップS33)。ここで「サンプルする」とは、条件付き確率密度関数に従うデータをランダムに1つ生成することをいい、以下、同じ意味で用いる。

【0035】
次に、サンプルされた音韻情報hと上述の学習用音声情報vとを用いて上述の(5)式により対応話者情報sの条件付き確率密度関数を決定し、その確率密度関数に基づいて話者情報sをサンプルする。そして、サンプルされた音韻情報hとサンプルされた対応話者情報sとを用いて上述の(3)式により学習用音声情報vの条件付き確率密度関数を決定し、その確率密度関数に基づいて学習用音声情報vをサンプルする(ステップS34)。
次に、上述のステップS34でサンプルされた対応話者情報sと学習用音声情報vとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hを再サンプルする(ステップS35)。

【0036】
そして、上述の(6)式で示される対数尤度Lをそれぞれのパラメータで偏微分し、勾配法により各種パラメータを更新する(ステップS36)。具体的には、確率的勾配法が用いられ、対数尤度Lをそれぞれのパラメータで偏微分した以下の(7)~(13)式が用いられる。ここで、各偏微分項右辺の<・>dataはそれぞれのデータに対する期待値を表し、<・>modelは、モデルの期待値を表している。モデルに対する期待値は項数が膨大となり計算困難だが、CD(Contrastive Divergence)法を適用し、上述のとおりサンプルされた学習用音声情報v、対応話者情報s、音韻情報hを用いてモデルに対する期待値を近似計算することができる。

【0037】
【数5】
JP2017146073A1_000007t.gif

【0038】
各種パラメータを更新した後、所定の終了条件を満たしていれば(YES)、次のステップに進み、満たしていなければ(NO)ステップS32に戻り、以降の各ステップを繰り返す(ステップS37)。なお、所定の終了条件としては、例えば、これら一連のステップの繰り返し数が挙げられる。
なお、学習処理として、一度各種パラメータを決定したあと、新たに別の人のパラメータを追加する場合には、一部の式で示すパラメータのみを更新するようにしてもよい。例えば、[数5]で示す(7)式~(13)式の内で、(8)式、(9)式、および(10)式により、新たに得た学習音声で当該パラメータを更新する。(7)式、(11)式、(12)式、および(13)式で得られるパラメータについては、既に学習済みのパラメータを更新せずにそのまま使用してもよく、また、他のパラメータと同様にパラメータを更新してもよい。一部のパラメータのみを更新した場合、簡単な演算処理で学習音声の追加が行えるようになる。

【0039】
再び、図4に戻り、説明を続ける。パラメータ推定部114は、上述の一連のステップにより推定されたパラメータを学習により決定されたパラメータとして声質変換ユニット12の声質変換部124へ引き渡す(ステップS4)。

【0040】
次に、声質変換処理として、ユーザは、図示しない入力部を操作して声質変換ユニット12の話者情報設定部123において声質変換の目標となる目標話者の情報s(o)を設定する(ステップS5)。そして、音声信号取得部121により変換用音声信号を取得する(ステップS6)。
前処理部122は、パラメータ学習処理の場合と同じく変換用音声信号に基づいて変換用音声情報v(i)を生成し、上述の対応する目標話者情報s(o)とともに声質変換部124へ出力する(ステップS7)。なお、変換用音声信号v(i)の生成は、上述のステップS2(図5のステップS21~S23)と同様の手順で行われる。

【0041】
声質変換処理部124は、目標話者情報s(o)に基づいて変換用音声情報v(i)から変換済み音声情報v(o)を生成する(ステップS8)。
ステップS8の詳細は図7に示されている。以下、図7を参照してステップS8について具体的に説明する。まず、確率モデル3WRBMにおいてパラメータ学習ユニット11のパラメータ推定部114から取得した各種パラメータを設定する(ステップS81)。そして、前処理部122から変換音声情報を取得し(ステップS82)、以下の(14)式に入力することで音韻情報hを推定する(ステップS83)。
続いて、話者情報設定部123での設定に基づいて、パラメータ学習処理で学習済みの目標話者の話者情報s(o)を設定する(ステップS84)。なお、以下の(14)式の三行目、分母に用いられるh´、s´は、分子に用いられるh、sと計算上区別するために用いられるものであり、その意味はh、sと同じである。

【0042】
【数6】
JP2017146073A1_000008t.gif

【0043】
そして、算出された音韻情報hを用いて、以下の(15)式により変換済み音声情報v(o)を推定する(ステップS85)。推定された変換済み音声情報v(o)は、後処理部125へ出力される。

【0044】
【数7】
JP2017146073A1_000009t.gif

【0045】
図4に戻り、後処理部125は、変換済み音声情報v(o)を用いて変換済み音声信号を生成する(ステップS9)。具体的には、図8に示すように、正規化されている変換済み音声信号v(o)に非正規化処理(上述の正規化処理に用いる関数の逆関数を施す処理)を施し(ステップS91)、非正規化処理のなされたスペクトル特徴量を逆変換することでフレームごとの変換済み音声信号を生成し(ステップS92)、これらフレームごとの変換済み音声信号を時刻順に結合することで変換済み音声信号を生成する(ステップS93)。
図4に示すように、後処理部125により生成された変換済み音声信号は、音声信号出力部126より外部へ出力される(ステップS10)。変換済み音声信号を外部に接続されたスピーカで再生することにより、目標話者の音声に変換された入力音声を聞くことができる。

【0046】
以上、本発明によれば、確率モデル3WRBMにより話者情報を考慮しながら音声情報のみから音韻情報を推定することができるため、声質変換の際、入力話者を指定しなくとも目標話者への声質変換が可能となり、また、入力話者の音声が学習時において学習のために用意されていない音声であったとしても目標話者の声質へ変換することが可能となる。

【0047】
<実験例>
本発明の効果を実証するため、[1]従来の非パラレル声質変換と本発明との変換精度を比較する実験と、[2]本発明による話者非指定型と話者指定型の変換精度を比較する実験を行った。
実験には日本音響学会研究用連続音声データベース(ASJ-JIPDEC)の中からランダムに男性27名、女性31名の計58名の話者を選び、5発話分の音声データを学習に用いるとともに、他の10発話分の音声データを評価に用いた。スペクトル特徴量としては、32次元のメルケプストラム特徴量を用いた。また、音韻情報の次元数を16とした。評価尺度には客観評価基準であるMDIR(mel-distortion improvement ratio)を用いた。
以下、(16)式は、実験に用いたMDIRを示す式であり、数値が大きいほど高い精度を表す。学習率0.01、モーメント係数0.9、バッチサイズ100、繰り返し回数50の確率的勾配法を用いてモデルを学習した。

【0048】
【数8】
JP2017146073A1_000010t.gif

【0049】
【表1】
JP2017146073A1_000011t.gif

【0050】
【表2】
JP2017146073A1_000012t.gif

【0051】
[実験結果]
まず、本発明による3WRBMによる声質変換と、従来の非パラレル声質変換法であるARBM(Adaptive Restricted Boltzmann Machine)及びSATBM(Speaker Adaptive Trainable Boltzmann Machine)と比較した。上述の[表1]に示すように、本発明による手法で最も高い精度が得られたことが分かる。
次に、本発明で述べた3WRBMにおいて、話者非指定型と、話者指定型の変換精度を比較した。実験結果を上述の[表2]に示す。本発明において、話者非指定型(arbitrary source approach)は入力話者を指定していないにもかかわらず、正しい入力話者を指定した場合(correct speaker specified)と遜色ない結果が得られた。なお、正しくない入力話者を指定した場合(different speaker specified)、精度が下がることを確認した。

【0052】
<変形例>
なお、ここまで説明した実施形態例では、学習を行う入力音声(入力話者の音声)として、人間の話し声の音声を処理する例について説明したが、実施形態例で説明した各情報を得る学習が可能であれば、学習用の音声信号(入力信号)として、人間の話し声以外の様々な音として、その音声信号を学習してもよい。例えば、サイレンの音や動物の鳴き声などのような音を学習してもよい。
【符号の説明】
【0053】
1・・・音質変換装置、11・・・パラメータ学習ユニット、12・・・音質変換処理ユニット、101・・・CPU、102・・・ROM、103・・・RAM、104・・・HDD/SDD、105・・・接続I/F、106・・・通信I/F、111,121・・・音声信号取得部、112,122・・・前処理部、113・・・対応話者情報取得部、114・・・パラメータ推定部、1141・・・音声情報推定部、1142・・・話者情報推定部、1143・・・音韻情報推定部、123・・・話者情報設定部、124・・・声質変換部、1241・・・音声情報設定部、1242・・・話者情報設定部、1243・・・音韻情報設定部、125・・・後処理部、125・・・音声信号出力部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7