TOP > 国内特許検索 > 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム

翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム コモンズ

国内特許コード P140010566
整理番号 06-32
掲載日 2014年5月27日
出願番号 特願2006-237639
公開番号 特開2008-059440
登録番号 特許第5067777号
出願日 平成18年9月1日(2006.9.1)
公開日 平成20年3月13日(2008.3.13)
登録日 平成24年8月24日(2012.8.24)
発明者
  • 山本 博史
  • 隅田 英一郎
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム コモンズ
発明の概要 【課題】従来の翻訳装置においては、精度の高い翻訳ができない、という課題があった。
【解決手段】n種類の区別された言語モデルを格納しており、翻訳対象の第一の言語の文を受け付け、当該文を1以上の用語に分割する文分割部と、各言語モデルを読み出し、当該各言語モデルを用いて、文分割部が取得した1以上の各用語が、各言語モデルが有する1以上の対訳文対中に出現する確率に関する情報である翻訳原文出現確率を、言語モデル毎に算出する翻訳原文出現確率算出部と、言語モデル毎に算出されたnの翻訳原文出現確率を用いて、最も出現する確率が高い言語モデルを決定する言語モデル決定部と、言語モデル決定部が決定した言語モデルを読み出し、当該読み出した言語モデルを用いて、前記受付部が受け付けた文を第二の言語の文に翻訳する翻訳部を具備する翻訳装置により、精度の高い翻訳ができる。
【選択図】図6
従来技術、競合技術の概要



近年、N-gramに代表される統計言語モデルは統計翻訳をはじめとする言語処理において広く用いられている。統計言語モデルはその性格上、学習データと異なるタスクに対しては性能が劣化してしまう。





また、「タスク適応」という考え方がある。「タスク適応」は、特定のタスクに特化したモデルであるタスク依存モデルを作成することが目的である。ここで、タスクとは、例えば、所定の話題や、分類するための指標(例えば、旅行の会話集など)などである。





また、対象のタスクが既知である場合には、あらかじめ「タスク適応」を用いてタスク依存モデルを作成しておき、それを統計翻訳に利用することができる。





従来の翻訳装置において、入力された第1自然言語表現の翻訳として適切な第2自然言語表現を選択することを可能にする翻訳装置があった(例えば、特許文献1参照)。かかる翻訳装置において、第1、第2自然言語共起語収集部は、第1、第2自然言語コーパスを検索してそれぞれ第1、第2自然言語の表現に共起する語および共起語毎の統計情報を取得する。第1、第2自然言語共起情報解析部は、それぞれ受け取った共起語およびその統計情報を用いて各共起語の特徴量を計算し、第1、第2の自然言語共起情報として出力する。共起情報比較部は、第1自然言語共起情報と第2自然言語共起情報と対訳辞書を使用して、第1自然言語表現と第2自然言語表現の全ての組み合わせについてその意味的な類似度を計算し、翻訳候補選択部に送る。翻訳候補選択部は、入力された第1自然言語表現に対して意味的な類似度の最も高い第2自然言語表現を選択して出力する。





また、従来の他の翻訳装置において、対訳フレーズを利用した統計機械翻訳装置において、より高い精度で翻訳を行うことができる装置があった(例えば、特許文献2参照)。かかる統計機械翻訳装置において、日英機械翻訳のデコーダは、日本語フレーズNグラムモデル、英語フレーズNグラムモデル、英語言語モデル、および英語から日本語へのフレーズ翻訳モデルと、日本語の入力文に対し可能な全てのセグメンテーションを行なうセグメンテーション処理部と、得られたセグメンテーションにしたがい、日本語フレーズNグラムモデル、英語フレーズNグラムモデル、英語言語モデル、および英語から日本語へのフレーズ翻訳モデルを用い、英語のフレーズを任意の順序で確率付きで並べたフレーズシーケンスを表すラッティスを作成するラッティス作成部と、ラッティス作成部が作成したラッティスのうちで最も確率の高い上位M個の経路を探索して出力するA*探索処理部とを含む装置である。





なお、本発明に関連する技術として、非特許文献1、非特許文献2に記述された技術がある。

【特許文献1】

開2002-351872号公報(第1頁、第1図等)

【特許文献2】

開2006-099208号公報(第1頁、第1図等)

【非特許文献1】

. M. Katz,"Estimation of Probabilities from Sparse Data for Language Model Component of a Speech Recognizer,",IEEE Trans. on Acoustics, Speech, and Signal Processing, pp. 400-401, 1987.

【非特許文献2】

. Seymore, R. Rosenfeld,"Using Story Topics for Language Model Adaptation,",Proc. EUROSPEECH, pp. 1987-1990, 1997.

産業上の利用分野



本発明は、自然言語の翻訳を行う翻訳装置等に関するものである。

特許請求の範囲 【請求項1】
第一の言語の文と、当該文の第二の言語への翻訳文の対の情報である対訳文対を複数格納している対訳文対格納部と、
前記対訳文対格納部から複数の対訳文対を読み出し、当該複数の対訳文対をn個のバッファに配置する対訳文対配置部と、
前記バッファ毎に、前記対訳文対配置部が配置する各バッファ中の1以上の対訳文対を1以上の用語に分割し、当該1以上の対訳文対中に用語が出現する確率についての情報である確率情報を取得し、用語と当該用語に対応する確率情報を有する用語出現確率情報を1以上有する情報である言語モデルを取得し、記録媒体上に配置する言語モデル取得部と、
前記言語モデル取得部が取得した1以上の用語出現確率情報が有する1以上の確率情報を用いて、前記n個のバッファ毎に、用語の出現の均一具合についての情報であるnのエントロピーを算出し、記憶媒体に配置するエントロピー算出部と、
前記nのエントロピーを取得し、前記n個のバッファ全体の用語の出現の均一具合についての情報である総エントロピーを算出し、記憶媒体に配置する総エントロピー算出部と、
前記n個のバッファのうちのいずれかのバッファ中のいずれかの対訳文対を読み出し、他の各バッファに移動する対訳文対移動部と、
前記対訳文対移動部が対訳文対を各バッファに移動した後、バッファごとに、前記言語モデル取得部に前記言語モデルを取得し、記録媒体上に配置するように指示し、前記エントロピー算出部に前記nのエントロピーを算出し、記憶媒体に配置するように指示し、および前記総エントロピー算出部に対して総エントロピーを算出し、記憶媒体に配置するように指示する第一制御部と、
前記第一制御部の制御に対応して、バッファごとに、得られたnの総エントロピーを取得し、当該nの総エントロピーのうちで最も小さい総エントロピーに対応するバッファに、当該移動対象の対訳文対の移動先のバッファを決定し、当該バッファに前記移動対象の対訳文対を書き込む対訳文対移動先決定部と、
前記対訳文対移動先決定部が、全対訳文対について移動先を決定した後の最近の総エントロピーと、その前のサイクルにおいて、前記対訳文対移動先決定部が全対訳文対について、移動先を決定した後の総エントロピーである直前の総エントロピーを用いて、エントロピーの変化量を算出し、記録媒体に配置する変化量算出部と、
前記変化量算出部が算出した変化量が閾値より小さいか否か、または閾値以下であるか否かを判断する変化判断部と、
前記変化判断部が、変化量が閾値より小さい、または閾値以下であると判断するまで、前記対訳文対移動部、前記第一制御部および前記対訳文対移動先決定部に当該各部の処理を繰り返させる第二制御部と、
前記対訳文対移動先決定部が最後にバッファに対訳文対を書き込んだ後の前記n個のバッファ内の対訳文対のn種類の集合を、n種類に区別して蓄積するクラスタ蓄積部を具備するクラスタ生成装置。

【請求項2】
前記言語モデル取得部が取得する確率情報は、
1以上の対訳文対中に一の用語が出現する確率である請求項1記載のクラスタ生成装置。

【請求項3】
n(nは2以上の整数)種類の区別された言語モデルであり、用語および当該用語が1以上の対訳文対中に出現する確率についての情報である確率情報を用語毎に有する言語モデルを格納している言語モデル格納部と、
翻訳対象の第一の言語の文を受け付ける受付部と、
前記受付部が受け付けた文を取得し、当該文を1以上の用語に分割し、記憶媒体に配置する文分割部と、
前記言語モデル格納部の各言語モデルを読み出し、当該各言語モデルを用いて、前記文分割部が取得した1以上の各用語が、各言語モデルが有する1以上の対訳文対中に出現する確率に関する情報である翻訳原文出現確率を、言語モデル毎に算出し、記憶媒体に配置する翻訳原文出現確率算出部と、
前記言語モデル毎に算出されたnの翻訳原文出現確率を用いて、最も出現する確率が高い言語モデルを決定する言語モデル決定部と、
前記言語モデル決定部が決定した言語モデルを、前記言語モデル格納部から読み出し、当該読み出した言語モデルを用いて、前記前記受付部が受け付けた文を第二の言語の文に翻訳し、当該翻訳結果を出力する翻訳部を具備する翻訳装置。

【請求項4】
前記言語モデル格納部が格納しているn種類の区別された各言語モデルは、
請求項1または請求項2記載のクラスタ生成装置が蓄積したn種類の各対訳文対の集合から構成された情報であり、n種類の各対訳文対の集合が有する各対訳文対を1以上の用語に分割し、当該1以上の用語が対訳文対の集合中に出現する確率についての情報である確率情報を用語毎に算出されることにより得られた情報である請求項3記載の翻訳装置。

【請求項5】
前記確率情報は、
単語3-gramの確率である請求項3または請求項4記載の翻訳装置。

【請求項6】
前記翻訳部は、
前記言語モデル決定部が決定した言語モデル(T)を、前記言語モデル格納部から読み出し、当該読み出した言語モデル(T)において、P(e|f,T)P(f|T)[eは入力された翻訳対象の文、fは目的言語の文]を最大にする第二の言語の文(f)を、前記言語モデル(T)が有する1以上の対訳文対が有する第二の言語の翻訳文から選択し、出力する請求項3から請求項5いずれか記載の翻訳装置。

【請求項7】
第一の言語の文と、当該文の第二の言語への翻訳文の対の情報である対訳文対を複数、記憶媒体に格納しており、
コンピュータに、
前記記憶媒体から複数の対訳文対を読み出し、当該複数の対訳文対をn個のバッファに配置する対訳文対配置ステップと、
前記バッファ毎に、前記対訳文対配置ステップが配置する各バッファ中の1以上の対訳文対を1以上の用語に分割し、当該1以上の対訳文対中に用語が出現する確率についての情報である確率情報を取得し、用語と当該用語に対応する確率情報を有する用語出現確率情報を1以上有する情報である言語モデルを取得し、記録媒体上に配置する言語モデル取得ステップと、
前記言語モデル取得ステップで取得した1以上の用語出現確率情報が有する1以上の確率情報を用いて、前記n個のバッファ毎に、用語の出現の均一具合についての情報であるnのエントロピーを算出し、記憶媒体に配置するエントロピー算出ステップと、
前記nのエントロピーを取得し、前記n個のバッファ全体の用語の出現の均一具合についての情報である総エントロピーを算出し、記憶媒体に配置する総エントロピー算出ステップと、
前記n個のバッファのうちのいずれかのバッファ中のいずれかの対訳文対を読み出し、他の各バッファに移動する対訳文対移動ステップと、
前記対訳文対移動ステップで対訳文対を各バッファに移動した後、バッファごとに、前記言語モデルを取得し、記録媒体上に配置させ、前記nのエントロピーを算出し、記憶媒体に配置させ、および総エントロピーを算出し、記憶媒体に配置させる第一制御ステップと、
前記第一制御ステップにおける処理に対応して、バッファごとに、得られたnの総エントロピーを取得し、当該nの総エントロピーのうちで最も小さい総エントロピーに対応するバッファに、当該移動対象の対訳文対の移動先のバッファを決定し、当該バッファに前記移動対象の対訳文対を書き込む対訳文対移動先決定ステップと、
前記対訳文対移動先決定ステップにおいて、全対訳文対について移動先を決定した後の最近の総エントロピーと、その前のサイクルにおいて、前記対訳文対移動先決定ステップで全対訳文対について、移動先を決定した後の総エントロピーである直前の総エントロピーを用いて、エントロピーの変化量を算出し、記録媒体に配置する変化量算出ステップと、
前記変化量算出ステップで算出した変化量が閾値より小さいか否か、または閾値以下であるか否かを判断する変化判断ステップと、
前記変化判断ステップで、変化量が閾値より小さい、または閾値以下であると判断するまで、前記対訳文対移動ステップにおける処理、前記第一制御ステップにおける処理、および前記対訳文対移動先決定ステップにおける処理を繰り返させ、
前記対訳文対移動先決定ステップにおいて最後にバッファに対訳文対を書き込んだ後の前記n個のバッファ内の対訳文対のn種類の集合を、n種類に区別して蓄積するクラスタ蓄積ステップを実行させるためのプログラム。

【請求項8】
n(nは2以上の整数)種類の区別された言語モデルであり、用語および当該用語が1以上の対訳文対中に出現する確率についての情報である確率情報を用語毎に有する言語モデルを記録媒体に格納しており、
コンピュータに、
翻訳対象の第一の言語の文を受け付ける受付ステップと、
前記受付ステップで受け付けた文を取得し、当該文を1以上の用語に分割し、記憶媒体に配置する文分割ステップと、
前記記録媒体の各言語モデルを読み出し、当該各言語モデルを用いて、前記文分割ステップで取得した1以上の各用語が、各言語モデルが有する1以上の対訳文対中に出現する確率に関する情報である翻訳原文出現確率を、言語モデル毎に算出し、記憶媒体に配置する翻訳原文出現確率算出ステップと、
前記言語モデル毎に算出されたnの翻訳原文出現確率を用いて、最も出現する確率が高い言語モデルを決定する言語モデル決定ステップと、
前記言語モデル決定ステップで決定した言語モデルを、前記記録媒体から読み出し、当該読み出した言語モデルを用いて、前記前記受付ステップで受け付けた文を第二の言語の文に翻訳し、当該翻訳結果を出力する翻訳ステップを実行させるためのプログラム。

【請求項9】
対訳文対配置部、言語モデル取得部、エントロピー算出部、総エントロピー算出部、対訳文対移動部、第一制御部、対訳文対移動先決定部、変化量算出部、変化判断部、第二制御部、およびクラスタ蓄積部により実現され、n種類の分類された1以上の対訳文対の集合からなるnのクラスタを製造する方法であって、
第一の言語の文と、当該文の第二の言語への翻訳文の対の情報である対訳文対を複数、記憶媒体に格納しており、
前記対訳文対配置部が、前記記憶媒体から複数の対訳文対を読み出し、当該複数の対訳文対をn個のバッファに配置する対訳文対配置ステップと、
前記言語モデル取得部が、前記バッファ毎に、前記対訳文対配置ステップで配置する各バッファ中の1以上の対訳文対を1以上の用語に分割し、当該1以上の対訳文対中に用語が出現する確率についての情報である確率情報を取得し、用語と当該用語に対応する確率情報を有する用語出現確率情報を1以上有する情報である言語モデルを取得し、記録媒体上に配置する言語モデル取得ステップと、
前記エントロピー算出部が、前記言語モデル取得ステップで取得した1以上の用語出現確率情報が有する1以上の確率情報を用いて、前記n個のバッファ毎に、用語の出現の均一具合についての情報であるnのエントロピーを算出し、記憶媒体に配置するエントロピー算出ステップと、
前記総エントロピー算出部が、前記nのエントロピーを取得し、前記n個のバッファ全体の用語の出現の均一具合についての情報である総エントロピーを算出し、記憶媒体に配置する総エントロピー算出ステップと、
前記対訳文対移動部が、前記n個のバッファのうちのいずれかのバッファ中のいずれかの対訳文対を読み出し、他の各バッファに移動する対訳文対移動ステップと、
前記第一制御部が、前記対訳文対移動ステップで対訳文対を各バッファに移動した後、バッファごとに、前記言語モデルを取得し、記録媒体上に配置させ、前記nのエントロピーを算出し、記憶媒体に配置させ、および総エントロピーを算出し、記憶媒体に配置させる第一制御ステップと、
前記対訳文対移動先決定部が、前記第一制御ステップにおける処理に対応して、バッファごとに、得られたnの総エントロピーを取得し、当該nの総エントロピーのうちで最も小さい総エントロピーに対応するバッファに、当該移動対象の対訳文対の移動先のバッファを決定し、当該バッファに前記移動対象の対訳文対を書き込む対訳文対移動先決定ステップと、
前記変化量算出部が、前記対訳文対移動先決定ステップにおいて、全対訳文対について移動先を決定した後の最近の総エントロピーと、その前のサイクルにおいて、前記対訳文対移動先決定ステップで全対訳文対について、移動先を決定した後の総エントロピーである直前の総エントロピーを用いて、エントロピーの変化量を算出し、記録媒体に配置する変化量算出ステップと、
前記変化判断部が、前記変化量算出ステップで算出した変化量が閾値より小さいか否か、または閾値以下であるか否かを判断する変化判断ステップと、
前記第二制御部が、前記変化判断ステップで、変化量が閾値より小さい、または閾値以下であると判断するまで、前記対訳文対移動ステップにおける処理、前記第一制御ステップにおける処理、および前記対訳文対移動先決定ステップにおける処理を繰り返させ、
前記クラスタ蓄積部が、前記対訳文対移動先決定ステップにおいて最後にバッファに対訳文対を書き込んだ後の前記n個のバッファ内の対訳文対のn種類の集合を、n種類に区別して蓄積するクラスタ蓄積ステップを具備するクラスタの製造方法。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2006237639thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close