TOP > 国内特許検索 > 文字列対応付け装置、方法、及びプログラム

文字列対応付け装置、方法、及びプログラム NEW

国内特許コード P180015517
整理番号 4238
掲載日 2018年11月21日
出願番号 特願2013-149869
公開番号 特開2015-022508
登録番号 特許第6044996号
出願日 平成25年7月18日(2013.7.18)
公開日 平成27年2月2日(2015.2.2)
登録日 平成28年11月25日(2016.11.25)
発明者
  • 須藤 克仁
  • 永田 昌明
  • 森 信介
出願人
  • 日本電信電話株式会社
  • 国立大学法人京都大学
発明の名称 文字列対応付け装置、方法、及びプログラム NEW
発明の概要 【課題】異なる言語の文字列組における文字の対応付けを精度よく行うことができるようにする。
【解決手段】対応付け計算部23によって、異なる第1の言語及び第2の言語にそれぞれ属する同じ意味の文字列の組み合わせである文字列組について、文字列組の各文字列を、文字列の先頭から順番に、前置非翻字セグメントと、翻字セグメントと、後置非翻字セグメントとで構成したときに、翻字モデル選択確率と、非翻字モデル選択確率と、非翻字モデル生成確率と、翻字モデル生成確率と、に基づいて尤もらしくなるように、文字列組の各文字列を前置非翻字セグメント、翻字セグメント、及び後置非翻字セグメントで構成し、かつ、第1言語の文字列のうちの翻字セグメントの部分文字列と、第2言語の文字列のうちの翻字セグメントの部分文字列との間の文字を対応付ける。
【選択図】図1
従来技術、競合技術の概要


ある言語の音韻体系で表記された語句を別の言語の音韻体系での表記に変換する機械翻字を、統計モデルとして表現するために、互いが対応する単語の組を統計モデルの学習のためのデータとして利用して、単語を構成する文字同士の対応関係を推定することが広く行われている。例えば、非特許文献1では、英語の音韻表現と日本語におけるカタカナ語のローマ字化された表記との間での音韻記号-ローマ字間の1対多の対応付け方法について記している。さらに、非特許文献2では、英語の文字と音韻表記との多対多の対応付けについて記している。非特許文献3では、記号の多対多の対応関係を自動的に行うコンピュータプログラムについて記している。



一方で、統計モデルの学習に利用する単語の組を大量に収集しようとすると、ある程度の誤りの混入は避けられない。いわゆる「カタカナ語」と英語の対応で言えば、日英対訳辞書の項目において日本語側がカタカナで表記されているものでも、「コンピュータ」と”computer”のように翻字関係となっているものもあれば、「カブトムシ」と”beetle”のように、カタカナで表記されるが翻字関係とはなっていないものもある。こうした誤った単語対応を統計モデルの学習に利用することでノイズが混入し、統計モデルの質を低下することは避けるべきである。この問題に対して、翻字関係となっている文字間対応の統計モデルと、翻字関係となっておらず2言語間で独立な文字列の統計モデルを利用した翻字対応付け方法が提案されており、有効に働くことが示されている(例えば、非特許文献4)。対訳辞書の存在を仮定しない非特許文献5のような「統計的機械翻訳」と呼ばれる技術分野においては、対訳文中の共起関係等を用いて自動的に単語対応を得ている。この自動的に得られた単語対応から翻字対応関係を得ようとすると単語対応に誤りが含まれる可能性も高くなるが、非特許文献4の方法により、1対1の単語対応組を、翻字となっている単語組と翻字となっていない単語組を自動的に分類し、翻字となっている単語組からのみ翻字対応の統計モデルを学習することが可能となる。また、非特許文献6には、上記非特許文献3の技術を、翻字でない文字列に対応させた場合について記載されている。

産業上の利用分野


本発明は、文字列対応付け装置、方法、及びプログラムに係り、特に、異なる言語の文字列の組における文字の対応付けを行う文字列対応付け装置、方法、及びプログラムに関する。

特許請求の範囲 【請求項1】
異なる第1の言語及び第2の言語にそれぞれ属する同じ意味の文字列の組み合わせである文字列組について、前記第1の言語の文字列と、前記第2の言語の文字列との間で文字の対応付けを行う文字列対応付け装置であって、
前記文字列組を複数組記憶した文字列組データベースに記憶された前記文字列組の各々に対して、前記文字列組の各文字列を、前記文字列の先頭から順番に、他方の言語の部分文字列と翻字関係にない0文字以上の部分文字列を示す前置非翻字セグメントと、前記他方の言語の部分文字列と翻字関係にある0文字以上の部分文字列を示す翻字セグメントと、前記他方の言語の部分文字列と翻字関係にない0文字以上の部分文字列を示す後置非翻字セグメントとで構成したときに、前記第1言語の部分文字列が、前記第2言語の部分文字列と翻字関係にない非翻字部分である確率を表す非翻字モデル選択確率と、前記第2言語の部分文字列が、前記第1言語の部分文字列と翻字関係にない非翻字部分である確率を表す非翻字モデル選択確率と、前記第1言語の部分文字列が、前記第2言語の部分文字列と翻字関係にある翻字部分であり、かつ前記第2言語の部分文字列が、前記第1言語の部分文字列と翻字関係にある翻字部分である確率を表す翻字モデル選択確率と、前記第1言語の文字列のうちの前記前置非翻字セグメントの部分文字列、及び前記後置非翻字セグメントの部分文字列の各々に対する前記第1言語における生成確率を表す非翻字モデル生成確率と、前記第2言語の文字列のうちの前記前置非翻字セグメントの部分文字列、及び前記後置非翻字セグメントの部分文字列の各々に対する前記第2言語における生成確率を表す非翻字モデル生成確率と、前記第1言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2言語の文字列のうちの前記翻字セグメントの部分文字列との間の部分文字列の各ペアに対する同時生成確率を表す翻字モデル生成確率と、に基づいて尤もらしくなるように、前記文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行う対応付け計算部
を含み、
前記対応付け計算部は、
前記第1の言語の前記非翻字モデル選択確率と、前記第2の言語の前記非翻字モデル選択確率と、前記第2の言語の各部分文字列に対する前記翻字モデル選択確率と、前記第1の言語の各部分文字列に対する前記非翻字モデル生成確率と、前記第2の言語の各部分文字列に対する前記非翻字モデル生成確率と、前記第1の言語の部分文字列と前記第2の言語の部分文字列との間の部分文字列の各ペアに対する前記翻字モデル生成確率と、に対して初期値を各々設定する初期値設定部と、
前記初期値設定部によって設定され、又は前回更新された、前記非翻字モデル選択確率、前記翻字モデル選択確率、前記非翻字モデル生成確率、及び前記翻字モデル生成確率に基づいて、前記文字列組の各々に対して、前記第1の言語の文字列のうちの部分文字列と、前記第2の言語の文字列のうちの部分文字列との間の部分文字列の各ペアについて、前記ペアが翻訳関係にある期待値を計算し、前記第1の言語の文字列のうちの各部分文字列について、前記部分文字列が非翻字部分である期待値を計算し、前記第2の言語の文字列のうちの各部分文字列について、前記部分文字列が非翻字部分である期待値を計算する期待値計算部と、
前記文字列組の各々に対して前記期待値計算部によって計算された各ペアに対する前記翻訳関係にある期待値、前記第1の言語の各部分文字列についての前記非翻字部分である期待値、及び前記第2の言語の各部分文字列についての前記非翻字部分である期待値に基づいて、前記非翻字モデル選択確率、前記翻字モデル選択確率、前記非翻字モデル生成確率、及び前記翻字モデル生成確率を更新するパラメータ更新部と、
予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算部による計算、及び前記パラメータ更新部による更新を繰り返す停止条件判定部と、を含み
前記文字列組の各々に対して、前記非翻字モデル選択確率、前記翻字モデル選択確率、前記非翻字モデル生成確率、及び前記翻字モデル生成確率の各々に基づいて、前記文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1の言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2の言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行う文字列対応付け装置。

【請求項2】
異なる第1の言語及び第2の言語にそれぞれ属する同じ意味の文字列の組み合わせである文字列組について、前記第1の言語の文字列と、前記第2の言語の文字列との間で文字の対応付けを行う文字列対応付け装置であって、
前記文字列組を複数組記憶した文字列組データベースに記憶された前記文字列組の各々に対して、前記文字列組の各文字列を、前記文字列の先頭から順番に、他方の言語の部分文字列と翻字関係にない0文字以上の部分文字列を示す前置非翻字セグメントと、前記他方の言語の部分文字列と翻字関係にある0文字以上の部分文字列を示す翻字セグメントと、前記他方の言語の部分文字列と翻字関係にない0文字以上の部分文字列を示す後置非翻字セグメントとで構成したときに、前記第1言語の部分文字列が、前記第2言語の部分文字列と翻字関係にない非翻字部分である確率を表す非翻字モデル選択確率と、前記第2言語の部分文字列が、前記第1言語の部分文字列と翻字関係にない非翻字部分である確率を表す非翻字モデル選択確率と、前記第1言語の部分文字列が、前記第2言語の部分文字列と翻字関係にある翻字部分であり、かつ前記第2言語の部分文字列が、前記第1言語の部分文字列と翻字関係にある翻字部分である確率を表す翻字モデル選択確率と、前記第1言語の文字列のうちの前記前置非翻字セグメントの部分文字列、及び前記後置非翻字セグメントの部分文字列の各々に対する前記第1言語における生成確率を表す非翻字モデル生成確率と、前記第2言語の文字列のうちの前記前置非翻字セグメントの部分文字列、及び前記後置非翻字セグメントの部分文字列の各々に対する前記第2言語における生成確率を表す非翻字モデル生成確率と、前記第1言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2言語の文字列のうちの前記翻字セグメントの部分文字列との間の部分文字列の各ペアに対する同時生成確率を表す翻字モデル生成確率と、に基づいて尤もらしくなるように、前記文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行う対応付け計算部
を含み、
前記対応付け計算部は、
前記文字列組の各々に対して、前記文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1の言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2の言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行って、対応付けの初期設定を行う初期対応設定部と、
前記初期対応設定部によって設定され、又は前回更新された、前記複数組の文字列組のうちの処理対象の文字列組以外の文字列組の各々についての前記対応付けに基づいて、前記第1の言語の前記非翻字モデル選択確率と、前記第2の言語の前記非翻字モデル選択確率と、前記翻字モデル選択確率と、前記処理対象の文字列組の前記第1の言語の文字列のうちの各部分文字列に対する前記非翻字モデル生成確率と、前記処理対象の文字列組の前記第2の言語の文字列のうちの各部分文字列に対する前記非翻字モデル生成確率と、前記処理対象の文字列組の前記第1の言語の文字列のうちの部分文字列と、前記第2の言語の文字列のうちの部分文字列との間の部分文字列の各ペアに対する前記翻字モデル生成確率と、を計算するフィルタリング部と、
前記フィルタリング部によって計算された前記非翻字モデル選択確率、前記翻字モデル選択確率、前記非翻字モデル生成確率、及び前記翻字モデル生成確率に基づいて、前記処理対象の文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1の言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2の言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行って、前記処理対象の文字列組に対する前記対応付けを更新するサンプリング部と、
予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、各文字列組を処理対象とした前記フィルタリング部による計算及び前記サンプリング部による更新を繰り返す停止条件判定部と、を含む文字列対応付け装置。

【請求項3】
対応付け計算部を含み、異なる第1の言語及び第2の言語にそれぞれ属する同じ意味の文字列の組み合わせである文字列組について、前記第1の言語の文字列と、前記第2の言語の文字列との間で文字の対応付けを行う文字列対応付け装置における文字列対応付け方法であって、
対応付け計算部によって、前記文字列組を複数組記憶した文字列組データベースに記憶された前記文字列組の各々に対して、前記文字列組の各文字列を、前記文字列の先頭から順番に、他方の言語の部分文字列と翻字関係にない0文字以上の部分文字列を示す前置非翻字セグメントと、前記他方の言語の部分文字列と翻字関係にある0文字以上の部分文字列を示す翻字セグメントと、前記他方の言語の部分文字列と翻字関係にない0文字以上の部分文字列を示す後置非翻字セグメントとで構成したときに、前記第1言語の部分文字列が、前記第2言語の部分文字列と翻字関係にない非翻字部分である確率を表す非翻字モデル選択確率と、前記第2言語の部分文字列が、前記第1言語の部分文字列と翻字関係にない非翻字部分である確率を表す非翻字モデル選択確率と、前記第1言語の部分文字列が、前記第2言語の部分文字列と翻字関係にある翻字部分であり、かつ前記第2言語の部分文字列が、前記第1言語の部分文字列と翻字関係にある翻字部分である確率を表す翻字モデル選択確率と、前記第1言語の文字列のうちの前記前置非翻字セグメントの部分文字列、及び前記後置非翻字セグメントの部分文字列の各々に対する前記第1言語における生成確率を表す非翻字モデル生成確率と、前記第2言語の文字列のうちの前記前置非翻字セグメントの部分文字列、及び前記後置非翻字セグメントの部分文字列の各々に対する前記第2言語における生成確率を表す非翻字モデル生成確率と、前記第1言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2言語の文字列のうちの前記翻字セグメントの部分文字列との間の部分文字列の各ペアに対する同時生成確率を表す翻字モデル生成確率と、に基づいて尤もらしくなるように、前記文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行い、
前記対応付け計算部は、初期値設定部と、期待値計算部と、パラメータ更新部と、停止条件判定部と、を含み
前記初期値設定部によって、前記第1の言語の前記非翻字モデル選択確率と、前記第2の言語の前記非翻字モデル選択確率と、前記第2の言語の各部分文字列に対する前記翻字モデル選択確率と、前記第1の言語の各部分文字列に対する前記非翻字モデル生成確率と、前記第2の言語の各部分文字列に対する前記非翻字モデル生成確率と、前記第1の言語の部分文字列と前記第2の言語の部分文字列との間の部分文字列の各ペアに対する前記翻字モデル生成確率と、に対して初期値を各々設定するステップと、
前記期待値計算部によって、前記初期値設定部によって設定され、又は前回更新された、前記非翻字モデル選択確率、前記翻字モデル選択確率、前記非翻字モデル生成確率、及び前記翻字モデル生成確率に基づいて、前記文字列組の各々に対して、前記第1の言語の文字列のうちの部分文字列と、前記第2の言語の文字列のうちの部分文字列との間の部分文字列の各ペアについて、前記ペアが翻訳関係にある期待値を計算し、前記第1の言語の文字列のうちの各部分文字列について、前記部分文字列が非翻字部分である期待値を計算し、前記第2の言語の文字列のうちの各部分文字列について、前記部分文字列が非翻字部分である期待値を計算するステップと、
前記パラメータ更新部によって、前記文字列組の各々に対して前記期待値計算部によって計算された各ペアに対する前記翻訳関係にある期待値、前記第1の言語の各部分文字列についての前記非翻字部分である期待値、及び前記第2の言語の各部分文字列についての前記非翻字部分である期待値に基づいて、前記非翻字モデル選択確率、前記翻字モデル選択確率、前記非翻字モデル生成確率、及び前記翻字モデル生成確率を更新するステップと、
停止条件判定部によって、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算部による計算、及び前記パラメータ更新部による更新を繰り返すステップと、を含み
前記文字列組の各々に対して、前記非翻字モデル選択確率、前記翻字モデル選択確率、前記非翻字モデル生成確率、及び前記翻字モデル生成確率の各々に基づいて、前記文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1の言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2の言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行う文字列対応付け方法。

【請求項4】
対応付け計算部を含み、異なる第1の言語及び第2の言語にそれぞれ属する同じ意味の文字列の組み合わせである文字列組について、前記第1の言語の文字列と、前記第2の言語の文字列との間で文字の対応付けを行う文字列対応付け装置における文字列対応付け方法であって、
対応付け計算部によって、前記文字列組を複数組記憶した文字列組データベースに記憶された前記文字列組の各々に対して、前記文字列組の各文字列を、前記文字列の先頭から順番に、他方の言語の部分文字列と翻字関係にない0文字以上の部分文字列を示す前置非翻字セグメントと、前記他方の言語の部分文字列と翻字関係にある0文字以上の部分文字列を示す翻字セグメントと、前記他方の言語の部分文字列と翻字関係にない0文字以上の部分文字列を示す後置非翻字セグメントとで構成したときに、前記第1言語の部分文字列が、前記第2言語の部分文字列と翻字関係にない非翻字部分である確率を表す非翻字モデル選択確率と、前記第2言語の部分文字列が、前記第1言語の部分文字列と翻字関係にない非翻字部分である確率を表す非翻字モデル選択確率と、前記第1言語の部分文字列が、前記第2言語の部分文字列と翻字関係にある翻字部分であり、かつ前記第2言語の部分文字列が、前記第1言語の部分文字列と翻字関係にある翻字部分である確率を表す翻字モデル選択確率と、前記第1言語の文字列のうちの前記前置非翻字セグメントの部分文字列、及び前記後置非翻字セグメントの部分文字列の各々に対する前記第1言語における生成確率を表す非翻字モデル生成確率と、前記第2言語の文字列のうちの前記前置非翻字セグメントの部分文字列、及び前記後置非翻字セグメントの部分文字列の各々に対する前記第2言語における生成確率を表す非翻字モデル生成確率と、前記第1言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2言語の文字列のうちの前記翻字セグメントの部分文字列との間の部分文字列の各ペアに対する同時生成確率を表す翻字モデル生成確率と、に基づいて尤もらしくなるように、前記文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行い、
前記対応付け計算部は、初期対応設定部と、フィルタリング部と、サンプリング部と、停止条件判定部と、を含み、
前記初期対応設定部によって、前記文字列組の各々に対して、前記文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1の言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2の言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行って、対応付けの初期設定を行うステップと、
前記フィルタリング部によって、前記初期対応設定部によって設定され、又は前回更新された、前記複数組の文字列組のうちの処理対象の文字列組以外の文字列組の各々についての前記対応付けに基づいて、前記第1の言語の前記非翻字モデル選択確率と、前記第2の言語の前記非翻字モデル選択確率と、前記翻字モデル選択確率と、前記処理対象の文字列組の前記第1の言語の文字列のうちの各部分文字列に対する前記非翻字モデル生成確率と、前記処理対象の文字列組の前記第2の言語の文字列のうちの各部分文字列に対する前記非翻字モデル生成確率と、前記処理対象の文字列組の前記第1の言語の文字列のうちの部分文字列と、前記第2の言語の文字列のうちの部分文字列との間の部分文字列の各ペアに対する前記翻字モデル生成確率と、を計算するステップと、
前記サンプリング部によって、前記フィルタリング部によって計算された前記非翻字モデル選択確率、前記翻字モデル選択確率、前記非翻字モデル生成確率、及び前記翻字モデル生成確率に基づいて、前記処理対象の文字列組の各文字列を前記前置非翻字セグメント、前記翻字セグメント、及び後置非翻字セグメントで構成し、かつ、前記第1の言語の文字列のうちの前記翻字セグメントの部分文字列と、前記第2の言語の文字列のうちの前記翻字セグメントの部分文字列との間で文字の対応付けを行って、前記処理対象の文字列組に対する前記対応付けを更新するステップと、
前記停止条件判定部によって、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、各文字列組を処理対象とした前記フィルタリング部による計算及び前記サンプリング部による更新を繰り返すステップと、を含む文字列対応付け方法。

【請求項5】
コンピュータを、請求項1又は請求項2に記載の文字列対応付け装置の各部として機能させるためのプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2013149869thum.jpg
出願権利状態 登録
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close