TOP > 中国の大学の特許 > 清華大学の特許一覧 > コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム

コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム

国内特許コード P150011696
掲載日 2015年3月30日
出願番号 特願2009-248013
公開番号 特開2010-107982
登録番号 特許第4951664号
出願日 平成21年10月28日(2009.10.28)
公開日 平成22年5月13日(2010.5.13)
登録日 平成24年3月16日(2012.3.16)
優先権データ
  • 200810225354.0 (2008.10.31) CN
発明者
  • 鄭 方
  • 肖 煕
  • 劉 林泉
  • 遊 展
  • 曹 文暁
  • 赤羽 誠
  • 陳 如新
  • 高橋 良和
出願人
  • 清華大学
  • 株式会社ソニー・コンピュータエンタテインメント
発明の名称 コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム
発明の概要 【課題】データ量が少ないまま方言なまりの共通語に対する認識率を高め、同時に標準的共通語に対する認識率が顕著に下がらないことを保証するシステムの提供。
【解決手段】まず標準的共通語のトレーニングデータに基づきトライフォンによる標準的共通語モデルを生成し、第1、第2方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第1、第2方言なまり共通語モデルをそれぞれ生成する。更に、標準的共通語モデルを用いて第1方言なまり共通語のディベロップメントデータを認識することにより得られた第1混同行列に応じ、第1方言なまり共通語モデルを標準的共通語モデルの中にマージして一時マージモデルを得る。最後は、一時マージモデルにより第2方言なまり共通語のディベロップメントデータを認識することにより得られた第2混同行列に応じて、第2方言なまり共通語モデルを一時マージモデルの中にマージして認識モデルを得る。
【選択図】図1
従来技術、競合技術の概要



頑健性を高めることは従来から音声認識における重要点であるとともに困難な点である。それに、言葉のなまりの問題が頑健性の低下を招く主因となっている。例えば中国語には方言が多いため、なまりの問題は顕著であり、研究の価値は非常に高い。従来の音声認識システムでは、標準的共通語に対する認識率は高いが、方言によるなまりのある共通語(以下は方言なまり共通語と略称)に対する認識率は低い。この課題に対して、適応(Adaptation)などの方法を採用するのは一般的な解決策であるが、その前提としては方言なまり共通語のデータを十分に備えなければならない。また、このような方法を使用すると、標準的共通語に対する認識率は顕著に下がることがある。一方、方言の種類が多いため、それぞれの方言に対して音響モデルをトレーニングし直すと、作業の効率が低くなる。

産業上の利用分野



本発明は、コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム、プログラム、並びにそのプログラムを記憶した記憶媒体に関し、コンピュータ音声認識分野に該当する。

特許請求の範囲 【請求項1】
複数の方言を背景とする共通語音声認識のモデリング方法であって、
(1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第1方言なまり共通語モデルを生成し、第2種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第2方言なまり共通語モデルを生成する工程と、
(2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を生成し、当該第1混同行列に応じて前記第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして一時マージモデルを得る工程と、
(3)前記一時マージモデルを用いて第2種の方言なまり共通語のディベロップメントデータを認識することにより第2混同行列を生成し、当該第2混同行列に応じて前記第2方言なまり共通語モデルを前記一時マージモデルの中にマージして認識モデルを得る工程と、
を含むことを特徴とする複数の方言を背景とする共通語音声認識のモデリング方法。

【請求項2】
xで被認識音声の観測特徴ベクター、sで前記標準的共通語モデルにおける隠れマルコフ状態、dで前記第1方言なまり共通語モデルにおける隠れマルコフ状態、dで前記第2方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる前記一時マージモデルにおける確率密度関数は
p’(x|s)=λp(x|s)+(1-λ)p(x|d)p(d|s)
であり、
その中で、λは線形補間係数であり、0<λ<1を満たし、
前記認識モデルの確率密度関数は
【数4】


であり、その中で、w(sc)’は前記標準的共通語モデルにおける隠れマルコフ状態が占める重み、wmn(dc1)’とwpq(dc2)’はそれぞれ前記第1方言なまり共通語モデル、前記第2方言なまり共通語モデルにおける隠れマルコフ状態が占める重み、Kは標準的共通語モデルの隠れマルコフ状態sの混合正規分布の混合数、N(sc)(・)は標準的共通語モデルの隠れマルコフ状態sの混合正規分布の要素、Mは前記第1方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数、Nは前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数、Nmn(dc1)(・)は前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素、Pは前記第2方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数、Qは前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数、Npq(dc2)(・)は前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素、を示すことを特徴とする請求項1に記載のモデリング方法。

【請求項3】
複数の方言を背景とする共通語音声認識のモデリングプログラムであって、コンピュータに
(1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第1方言なまり共通語モデルを生成し、第2種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第2方言なまり共通語モデルを生成する機能と、
(2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を生成し、当該第1混同行列に応じて前記第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして一時マージモデルを得る機能と、
(3)前記一時マージモデルを用いて第2種の方言なまり共通語のディベロップメントデータを認識することにより第2混同行列を生成し、当該第2混同行列に応じて前記第2方言なまり共通語モデルを前記一時マージモデルの中にマージして認識モデルを得る機能と、
を実行させることを特徴とするコンピュータプログラム。

【請求項4】
n種(nは2以上の自然数)の方言を背景とする共通語音声認識のモデリング方法であって、
(1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1~n種の方言なまり共通語のそれぞれに対し、そのディベロップメントデータに基づいてモノフォンによる第1~第n方言なまり共通語モデルを生成する工程と、
(2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を生成し、当該第1混同行列に応じて第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして第1一時マージモデルを得る工程と、
(3)第(i-1)一時マージモデル(iは2<i<nを満たす自然数)を用いて第i種の方言なまり共通語のディベロップメントデータを認識することにより第i混同行列を生成し、当該第i混同行列に応じて第i方言なまり共通語モデルを前記第(i-1)一時マージモデルの中にマージする動作を、i=2からi=nまで順に繰り返すことにより、認識モデルを得る工程と、
を含むことを特徴とする複数の方言を背景とする共通語音声認識のモデリング方法。

【請求項5】
n種(nは2以上の自然数)の方言を背景とする共通語音声認識のモデリングプログラムであって、コンピュータに
(1)標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第1~n種の方言なまり共通語のそれぞれに対し、そのディベロップメントデータに基づいてモノフォンによる第1~第n方言なまり共通語モデルを生成する機能と、
(2)前記標準的共通語モデルを用いて第1種の方言なまり共通語のディベロップメントデータを認識することにより第1混同行列を生成し、当該第1混同行列に応じて第1方言なまり共通語モデルを前記標準的共通語モデルの中にマージして第1一時マージモデルを得る機能と、
(3)第(i-1)一時マージモデル(iは2<i<nを満たす自然数)を用いて第i種の方言なまり共通語のディベロップメントデータを認識することにより第i混同行列を生成し、当該第i混同行列に応じて第i方言なまり共通語モデルを前記第(i-1)一時マージモデルの中にマージする動作を、i=2からi=nまで順に繰り返すことにより、認識モデルを得る機能と、
を実行させることを特徴とするコンピュータプログラム。

【請求項6】
請求項3または5に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【請求項7】
複数の方言を背景とする共通語音声認識のモデリングシステムであって、モデル生成ユニットと、当該モデル生成ユニット全体の動作を制御する制御ユニットとを備え、
前記モデル生成ユニットは、
標準的共通語のトレーニングデータが記憶されている標準的共通語トレーニングデータベースと、
第1、第2種の方言なまり共通語のディベロップメントデータがそれぞれ記憶されている第1、第2ディベロップメントデータベースと、
前記標準的共通語トレーニングデータベースに記憶されている標準的共通語のトレーニングデータに基づいて、トライフォンによる標準的共通語モデルを生成するための標準的共通語モデル生成部と、
前記第1、第2ディベロップメントデータベースにそれぞれ記憶されている第1、第2種の方言なまり共通語のディベロップメントデータに基づいて、モノフォンによる第1、第2方言なまり共通語モデルを生成するための第1、第2モデル生成部と、
前記標準的共通語モデル生成部により生成された標準的共通語モデルを用いて、前記第1ディベロップメントデータベースに記憶されている第1種の方言なまり共通語のディベロップメントデータを認識することにより、第1混同行列を生成するための第1混同行列生成部と、
前記第1混同行列生成部により生成された第1混同行列に応じて、前記第1モデル生成部により生成された第1方言なまり共通語モデルを、前記標準的共通語モデル生成部により生成された標準的共通語モデルの中にマージして一時マージモデルを生成するための第1モデルマージ部と、
前記第1モデルマージ部により生成された一時マージモデルを用いて、前記第2ディベロップメントデータベースに記憶されている第2種の方言なまり共通語のディベロップメントデータを認識することにより、第2混同行列を生成するための第2混同行列生成部と、
前記第2混同行列生成部により生成された第2混同行列に応じて、前記第2モデル生成部により生成された第2方言なまり共通語モデルを、前記第1モデルマージ部により生成された一時マージモデルの中にマージして認識モデルを生成するための第2モデルマージ部と
を備えることを特徴とする複数の方言を背景とする共通語音声認識のモデリングシステム。

【請求項8】
xで被認識音声の観測特徴ベクター、sで前記標準的共通語モデルにおける隠れマルコフ状態、d1で前記第1方言なまり共通語モデルにおける隠れマルコフ状態、d2で前記第2方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる前記一時マージモデルにおける確率密度関数は
p’(x|s)=λp(x|s)+(1-λ)p(x|d)p(d|s)
であり、
その中で、λは線形補間係数であり、0<λ<1を満たし、
前記認識モデルの確率密度関数は
【数5】


であり、その中で、w(sc)’は前記標準的共通語モデルにおける隠れマルコフ状態が占める重み、wmn(dc1)’とwpq(dc2)’はそれぞれ前記第1方言なまり共通語モデル、前記第2方言なまり共通語モデルにおける隠れマルコフ状態が占める重み、Kは標準的共通語モデルの隠れマルコフ状態sの混合正規分布の混合数、N(sc)(・)は標準的共通語モデルの隠れマルコフ状態sの混合正規分布の要素、Mは前記第1方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数、Nは前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数、Nmn(dc1)(・)は前記第1方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素、Pは前記第2方言なまり共通語モデルの隠れマルコフ状態dと標準的共通語モデルの隠れマルコフ状態sの間での発音バリエーションの数、Qは前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の混合数、Npq(dc2)(・)は前記第2方言なまり共通語モデルの隠れマルコフ状態dの混合正規分布の要素、を示すことを特徴とする請求項4に記載のモデリングシステム。

【請求項9】
請求項7又は8に記載の第1と第2モデル生成部、第1と第2混同行列生成部、第1と第2モデルマージ部のうち少なくとも一組は、単一の構成として時間分割で利用されることを特徴とする複数の方言を背景とする共通語音声認識のモデリングシステム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2009248013thum.jpg
出願権利状態 登録
分野
  • 物理学
※ 特許の内容に興味を持たれた方は、下記問合せ先にご相談下さい。


PAGE TOP

close
close
close
close
close
close