TOP > 国内特許検索 > 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム > 明細書

明細書 :記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5825639号 (P5825639)
公開番号 特開2014-021863 (P2014-021863A)
登録日 平成27年10月23日(2015.10.23)
発行日 平成27年12月2日(2015.12.2)
公開日 平成26年2月3日(2014.2.3)
発明の名称または考案の名称 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム
国際特許分類 G06F  17/28        (2006.01)
G06N   3/00        (2006.01)
FI G06F 17/28 618
G06F 17/28 663
G06N 3/00 560J
請求項の数または発明の数 9
全頁数 28
出願番号 特願2012-161994 (P2012-161994)
出願日 平成24年7月20日(2012.7.20)
審査請求日 平成26年7月31日(2014.7.31)
特許権者または実用新案権者 【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
発明者または考案者 【氏名】須藤 克仁
【氏名】永田 昌明
【氏名】森 信介
個別代理人の代理人 【識別番号】110001519、【氏名又は名称】特許業務法人太陽国際特許事務所
審査官 【審査官】長 由紀子
参考文献・文献 特開2007-156545(JP,A)
特開2012-185679(JP,A)
米国特許出願公開第2008/0221866(US,A1)
羽鳥 潤 外1名,機械翻訳手法に基づいた日本語の読み推定,言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM],日本,言語処理学会,2011年 3月31日,p.579-582
萩原 正人 外1名,原言語の起源に基づく潜在クラス翻字モデル,言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM],日本,言語処理学会,2011年 3月31日,p.967-970
久保 慶伍 外3名,発音付与のためのEMアルゴリズムを用いた多対多アライメントの評価,日本音響学会 2012年 春季研究発表会講演論文集CD-ROM [CD-ROM],日本,社団法人日本音響学会,2012年 3月 6日,p.229-232
調査した分野 G06F 17/20-28
G06N 3/00
特許請求の範囲 【請求項1】
異なる第1の体系及び第2の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け装置であって、
前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第1の体系の記号と、前記第2の体系の0個以上の連続する記号の先頭及び末尾の各々に特定の記号を追加した部分記号列とから得られる、前記第1の体系の記号と対応する前記第2の体系の部分記号列のうちの記号のNグラム(Nは2以上の整数)との対応付けの各々に対して、前記対応付けの確率を表わすNグラム確率の初期値を設定する初期値設定手段と、
前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するNグラム確率に基づいて、前記対応付けの各々に対する期待値を計算する期待値計算手段と、
前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するNグラム確率を更新するパラメータ更新手段と、
予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返す停止条件判定手段と、
前記記号列組の各々に対して、前記Nグラム確率の各々に基づいて、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け手段と、
を含む記号列対応付け装置。
【請求項2】
請求項1記載の記号列対応付け装置によって対応付けが行われた前記複数組の記号列組に基づいて、前記第1の体系の記号列と前記第2の体系の記号列との間の変換を行うための記号列変換モデルを学習する学習手段
を含む記号列変換モデル学習装置。
【請求項3】
請求項2記載の記号列変換モデル学習装置によって学習された前記記号列変換モデルに基づいて、入力された前記第1の体系及び前記第2の体系の何れか一方の記号列を、前期第1の体系及び前記第2の体系の何れか他方の記号列に変換する記号列変換手段
を含む記号列変換装置。
【請求項4】
異なる第1の体系及び第2の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け装置における記号列対応付け方法であって、
初期値設定手段によって、前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第1の体系の記号と、前記第2の体系の0個以上の連続する記号の先頭及び末尾の各々に特定の記号を追加した部分記号列とから得られる、前記第1の体系の記号と対応する前記第2の体系の部分記号列のうちの記号のNグラム(Nは2以上の整数)との対応付けの各々に対して、前記対応付けの確率を表わすNグラム確率の初期値を設定し、
期待値計算手段によって、前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するNグラム確率に基づいて、前記対応付けの各々に対する期待値を計算し、
パラメータ更新手段によって、前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するNグラム確率を更新し、
停止条件判定手段によって、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返し、
記号列対応付け手段によって、前記記号列組の各々に対して、前記Nグラム確率の各々に基づいて、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける
記号列対応付け方法。
【請求項5】
学習手段によって、請求項4記載の記号列対応付け方法によって対応付けが行われた前記複数組の記号列組に基づいて、前記第1の体系の記号列と前記第2の体系の記号列との間の変換を行うための記号列変換モデルを学習する
記号列変換モデル学習方法。
【請求項6】
記号列変換手段によって、請求項5記載の記号列変換モデル学習方法によって学習された前記記号列変換モデルに基づいて、入力された前記第1の体系及び前記第2の体系の何れか一方の記号列を、前期第1の体系及び前記第2の体系の何れか他方の記号列に変換する
記号列変換方法。
【請求項7】
コンピュータを、請求項1記載の記号列対応付け装置の各手段として機能させるためのプログラム。
【請求項8】
コンピュータを、請求項2記載の記号列変換モデル学習装置の各手段として機能させるためのプログラム。
【請求項9】
コンピュータを、請求項3記載の記号列変換装置の各手段として機能させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラムに係り、特に、異なる体系の記号列の組における記号の対応付けを行う記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラムに関する。
【背景技術】
【0002】
ある言語から別の言語への翻訳を機械的に実現する機械翻訳や、ある言語の音韻体系で表記された語句を別の言語の音韻体系での表記に変換する機械翻字を、統計モデルとして表現するために、互いが対応する文や語句の組を統計モデルの学習のためのデータとして利用して、文を構成する語句同士や、語句を構成する文字同士の対応関係を推定することが広く行われている(例えば、非特許文献1、非特許文献2、非特許文献3)。こうした記号間の対応関係の推定方法の多くは、期待値最大化(EM)アルゴリズムに基づいており、記号間の対応関係を明に与えることなく、対応する記号列の組から個々の記号の対応を学習可能である。
【0003】
非特許文献1および非特許文献2は機械翻訳のための単語対応付けを目的としており、翻訳における単語の順序の入れ替えを含めた多対1の単語対応付け方法について記している。また、非特許文献3は英語の音韻表現と日本語におけるカタカナ語のローマ字化された表記との間での音韻記号-ローマ字間の1対多の対応付け方法について記している。さらに、非特許文献4は英語の文字と音韻表記との多対多の対応付けについて記している。
【先行技術文献】
【0004】

【特許文献1】特開2011-175500号公報
【0005】

【非特許文献1】Peter F. Brown他, “The Mathematics of Statistical Machine Translation: Parameter Estimation”, Computational Linguistics, Volume 19, Number 2, pp. 263-311, 1993
【非特許文献2】Stephen Vogel他, “HMM-Based Word Alignment in Statistical Translation”, Proceedings of The 16th International Conference on Computational Linguistics, pp.836-841, 1996.
【非特許文献3】Kevin Knight and Jonathan Graehl, “Machine Transliteration”, Computational Linguistics, Volume 24, Number 4, pp.599-612, 1998.
【非特許文献4】Sittichai Jiampojamarn他, “Applying Many-to-Many Alignments and Hidden Markov Models to Letter-to-Phoneme Conversion”, Proceedings of NAACL HLT 2007, pp 372-379, 2007.
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明ではこうした記号間の対応付けのうち、機械翻字のように対応する記号間で順序の並べ替えが起こらない場合の対応付けにおける課題を解決する。通常機械翻訳においては語順の入れ替えが必要であるため、本発明の扱う問題とは異なるが、特許文献1に記載のような方法によって翻訳言語対のどちらかの語順をもう一方の言語の語順と同等になるように並べ替えることによって、並べ替えが必要ない問題に帰着することも可能である。記号の並べ替えが必要なくなることによって、記号の連接関係などの制約をより強くしたモデルを利用することができる。
【0007】
上記の非特許文献1や非特許文献2は、記号の順序入れ替えを考慮していたため、ある記号間の変換を制約するために、その記号間の位置に依存しない変換確率と、記号の並べ替え距離を利用している。このため、記号の連接関係は直接考慮されておらず、十分な制約を与えることが難しい。
【0008】
一方、非特許文献3や非特許文献4では、多対1、あるいは多対多の記号対応付けのすべての可能性を考慮し、期待値最大化(EM)アルゴリズムによって最適な対応付けを推定している。これらの技術では部分記号列同士の対応付けを行うことができる一方で、“an”と“ann”のような共通部分を持つ部分記号列を全く別の記号として区別してしまうため、制約が過剰になり、学習時に十分な統計量が得られない可能性がある。
【0009】
本発明は、上記の事情を鑑みてなされたもので、記号の連接関係を考慮して、異なる体系の記号列の組における記号の対応付けを精度よく行うことができる記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記の目的を達成するために本発明に係る記号列対応付け装置は、異なる第1の体系及び第2の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け装置であって、前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第1の体系の記号と、前記第2の体系の0個以上の連続する記号の先頭及び末尾の各々に特定の記号を追加した部分記号列とから得られる、前記第1の体系の記号と対応する前記第2の体系の部分記号列のうちの記号のNグラム(Nは2以上の整数)との対応付けの各々に対して、前記対応付けの確率を表わすNグラム確率の初期値を設定する初期値設定手段と、前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するNグラム確率に基づいて、前記対応付けの各々に対する期待値を計算する期待値計算手段と、前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するNグラム確率を更新するパラメータ更新手段と、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返す停止条件判定手段と、前記記号列組の各々に対して、前記Nグラム確率の各々に基づいて、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け手段と、を含んで構成されている。
【0011】
本発明に係る記号列対応付け方法は、異なる第1の体系及び第2の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け装置における記号列対応付け方法であって、初期値設定手段によって、前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第1の体系の記号と、前記第2の体系の0個以上の連続する記号の先頭及び末尾の各々に特定の記号を追加した部分記号列とから得られる、前記第1の体系の記号と対応する前記第2の体系の部分記号列のうちの記号のNグラム(Nは2以上の整数)との対応付けの各々に対して、前記対応付けの確率を表わすNグラム確率の初期値を設定し、期待値計算手段によって、前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するNグラム確率に基づいて、前記対応付けの各々に対する期待値を計算し、パラメータ更新手段によって、前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するNグラム確率を更新し、停止条件判定手段によって、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返し、記号列対応付け手段によって、前記記号列組の各々に対して、前記Nグラム確率の各々に基づいて、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける。
【0012】
本発明に係る記号列対応付け装置及び記号列対応付け方法によれば、第1の体系の記号と、第2の体系の0個以上の連続する記号の先頭及び末尾の各々に特定の記号を追加した部分記号列とから得られる、第1の体系の記号と対応する第2の体系の部分記号列のうちの記号のNグラムとの対応付けの各々に対するNグラム確率を、期待値を最大化するように、繰り返し更新して、Nグラム確率に基づいて、第1の体系の記号と第2の体系の記号とを対応付けることにより、記号の連接関係を考慮して、異なる体系の記号列の組における記号の対応付けを精度よく行うことができる。
【0013】
本発明に係る記号列変換モデル学習装置は、上記の記号列対応付け装置によって対応付けが行われた前記複数組の記号列組に基づいて、前記第1の体系の記号列と前記第2の体系の記号列との間の変換を行うための記号列変換モデルを学習する学習手段を含んで構成されている。
【0014】
本発明に係る記号列変換モデル学習方法は、学習手段によって、上記の記号列対応付け方法によって対応付けが行われた前記複数組の記号列組に基づいて、前記第1の体系の記号列と前記第2の体系の記号列との間の変換を行うための記号列変換モデルを学習する。
【0015】
本発明に係る記号列変換モデル学習装置及び記号列変換モデル学習方法によれば、精度よく対応付けられた記号列組に基づいて、第1の体系の記号列と第2の体系の記号列との間の変換を精度よく行うための記号列変換モデルを得ることができる。
【0016】
本発明に係る記号列変換装置は、上記の記号列変換モデル学習装置によって学習された前記記号列変換モデルに基づいて、入力された前記第1の体系及び前記第2の体系の何れか一方の記号列を、前期第1の体系及び前記第2の体系の何れか他方の記号列に変換する記号列変換手段を含んで構成されている。
【0017】
本発明に係る記号列変換方法は、記号列変換手段によって、上記の記号列変換モデル学習方法によって学習された前記記号列変換モデルに基づいて、入力された前記第1の体系及び前記第2の体系の何れか一方の記号列を、前期第1の体系及び前記第2の体系の何れか他方の記号列に変換する。
【0018】
本発明に係る記号列変換装置及び記号列変換方法によれば、第1の体系の記号列と第2の体系の記号列との間の変換を精度よく行うことができる。
【0019】
本発明に係るプログラムは、コンピュータを、上記の記号列対応付け装置、記号変換モデル学習装置、又は記号列変換装置の各手段として機能させるためのプログラムである。
【発明の効果】
【0020】
以上説明したように、本発明の記号列対応付け装置、方法、及びプログラムによれば、第1の体系の記号と、第2の体系の0個以上の連続する記号の先頭及び末尾の各々に特定の記号を追加した部分記号列とから得られる、第1の体系の記号と対応する第2の体系の部分記号列のうちの記号のNグラムとの対応付けの各々に対するNグラム確率を、期待値を最大化するように、繰り返し更新して、Nグラム確率に基づいて、第1の体系の記号と第2の体系の記号とを対応付けることにより、記号の連接関係を考慮して、異なる体系の記号列の組における記号の対応付けを精度よく行うことができる、という効果が得られる。
【0021】
本発明の記号列変換モデル学習装置、方法、及びプログラムによれば、精度よく対応付けられた記号列組に基づいて、第1の体系の記号列と第2の体系の記号列との間の変換を精度よく行うための記号列変換モデルを得ることができる、という効果が得られる。
【0022】
本発明の記号列変換装置、方法、及びプログラムによれば、第1の体系の記号列と第2の体系の記号列との間の変換を精度よく行うことができる、という効果が得られる。
【図面の簡単な説明】
【0023】
【図1】本発明の第1の実施の形態に係る記号列変換装置の構成を示す概略図である。
【図2】記号列組データの例を示す図である。
【図3】英語とカタカナの多対1の対応付け結果の例を示す図である。
【図4】本発明の第1の実施の形態に係る記号列変換装置における記号対応付け処理ルーチンの内容を示すフローチャートである。
【図5】本発明の第2の実施の形態に係る記号列変換装置の構成を示す概略図である。
【図6】本発明の第2の実施の形態に係る記号列変換装置における記号対応付け処理ルーチンの内容を示すフローチャートである。
【図7】英語とカタカナの1対多の対応付け結果の例を示す図である。
【図8】多対多の対応付け結果の例を示す図である。
【図9】記号対応付記号列組データの例を示す図である。
【図10】記号列変換WFSTの状態遷移記述の例を示す図である。
【図11】記号列変換の入力例を示す図である。
【図12】記号列変換の出力例を示す図である。
【発明を実施するための形態】
【0024】
以下、図面を参照して本発明の実施の形態を詳細に説明する。

【0025】
〔第1の実施の形態〕
<発明の概要>
第1の体系の記号列E=e1,e2,...,eIから第2の体系の記号列F=f1;,f2,...,fJへの変換確率は、第2の体系の記号が対応付けられる第1の体系の記号の位置を表すA={aj|1≦j≦J,0≦aj≦ I}(ただしaj=0はfjに対応する第1の体系の記号が存在しないことを表す)を用いて以下の式で表現される。

【0026】
【数1】
JP0005825639B2_000002t.gif

【0027】
ただし、A*はE,Fに対するすべての可能な対応付けの集合であるが、すべての対応付けを考慮した計算を行うことは困難であるため、一般的には確率が最大となる対応付けAを用いて以下の(2)式のように近似する。

【0028】
【数2】
JP0005825639B2_000003t.gif

【0029】
p(aj|aj-1,I)は第2の体系の記号fjに対応する第1の体系の記号eajが、一つ前のfj-1が対応する第1の体系の記号eaj-1に制約されることを示しており、非特許文献2では(aj-aj-1)、すなわちfjとfj-1が対応する第1の体系の記号間の(並べ替え)距離の関数として表現される。ここで、各ajは同一の値を取り得るが、一つの値しか持たないことから、第1の体系の記号と第2の体系の記号は1対多の対応を持つことが仮定されていることが分かる(例えばa1=a2=1であれば、第1の体系の記号e1が第2の体系の記号f1、f2と対応することを示す)。また、このモデルは前向き後向き(forward-backward)法を利用した期待値最大化アルゴリズムによって効率的に学習できることが知られている。このモデルはあるeiに対応するfjの相互依存性が前記並べ替え距離の関数のみで記述されていることから、例えば“マカ”と“maca”の対応付けにおいて「“マ”と“ma”が対応し、“カ”が“ca”と対応する」確率と「“マ”と“m”が対応し、“カ”が“aca”と対応する」確率とが等しくなってしまうような問題がある。非特許文献1では繁殖確率(fertility)と呼ばれる、1つの記号が何個の記号と対応するかを記述する確率分布を導入しているが、期待値最大化アルゴリズムによる効率的な解法が利用できなくなるという問題点が知られている。

【0030】
本発明では、記号の並べ替えを考慮しなくてよいことから、第1の体系の記号ei(0≦i≦I、なお、i=0は第2の体系の記号に対応する第1の体系の記号が存在しないことを示す)には、「1個以上の“連続する”第2の体系の記号が対応する」「対応する第2の体系の記号が存在しない」の場合のみを考慮し、さらに連続する第2の体系の記号の連接関係を記号バイグラムモデルで制約する。ここで、eiに対応する第2の体系の連続するni個(0≦ni≦J)の部分記号列fi1,...,finiに対して、eiに対応する第2の体系の記号の先頭と末尾を表す記号f0、fni+1の存在を仮定すると、n+2個の部分記号列^fi=fi0,fi1,...,fini,fini+1がeiに対応すると考えることができる。これにより、eiに対応する第2の体系の記号の先頭と末尾に対して制約を加えることができ、前記の“マカ”から“maca”への対応付けにおいて、“マ”が子音文字“m”と母音文字“a”、“カ”が子音文字“c”と母音文字“a”に対応する可能性が高い、というような関係を自然に表現することができる。またそれと同時に、n=0、すなわち「対応する第2の体系の記号が存在しない」場合を自然に表現することができる。以上より、本発明の対応付けに基づくEからFへの変換確率は以下の(3)式で表現される。

【0031】
【数3】
JP0005825639B2_000004t.gif

【0032】
パラメータは、上記(3)式で用いている記号バイグラム確率p(fji|fj-1i,ei)の各々であり、記号列組データにおいて共起する全てのfji, fj-1i, ei の組み合わせに対して定義される。

【0033】
本発明のモデルもHMMモデルと同様に前向き後向き法を利用した期待値最大化アルゴリズムによって効率的に学習することが可能である。また、期待値最大化アルゴリズムは得られる解が開始時のパラメータ初期値に強く依存することが広く知られており、複雑度の低いモデルを期待値最大化アルゴリズムによって学習した後、その値を複雑度の高いモデルの初期値として利用することが行われることが多い。本発明においても上記(3)式のモデルの学習に先立って、例えば非特許文献1のモデル1、通称IBMモデル1を先に学習して、学習結果をパラメータ初期値として利用することができる。

【0034】
<システム構成>
本発明の第1の実施の形態に係る記号列変換装置100は、第1の言語体系の記号列(単語)と第2の言語体系の記号列(単語)との対訳である記号列組データが入力され、記号列変換モデルを学習する。また、記号列変換装置100は、学習した記号列変換モデルを用いて、入力された第1の言語体系の入力記号列を第2の言語体系の記号列へ変換(翻訳)する。この記号列変換装置100は、CPUと、RAMと、後述する記号対応付け処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、記号列変換装置100は、入力部10と、演算部20と、出力部30とを備えている。

【0035】
入力部10は、キーボードなどの入力装置から入力された記号列組データとして、相互が対訳となっている記号列組の集合を受け付ける。また、入力部10は、キーボードなどの入力装置から、変換元(翻訳元)の第1の言語体系の入力記号列を受け付ける。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

【0036】
記号列組データは対訳記号列対が自明な構造のファイルである。本実施の形態においては、図2に示すように、英語(第1の言語体系)の記号列と日本語(第2の言語体系)の記号列とが、1行に1単語ずつ記載され、かつ同じ行数に対応する英語の記号列、日本語の記号列語は対訳として対応がとれている。例えば、記号列組同士はタブ文字によって分割されており、各記号(アルファベットおよびカタカナ)は1文字ずつ空白文字によって分割されている。

【0037】
演算部20は、記号列組データベース21、記号対応付け部22、記号対応付記号列組データベース23、記号列変換モデル学習部24、記号列変換モデル記憶部25、及び記号列変換部26を備えている。

【0038】
記号列組データベース21は、入力部10により受け付けた記号列組データを記憶する。各記号列組は1個以上の第1の言語体系の記号からなる記号列と1個以上の第2の言語体系の記号からなる記号列であって、記号間の対応は全く不明でもよいし、一部に1対1、多対1、1対多、あるいは多対多の対応が与えられていてもよい。対応が与えられている場合は、その対応を以後の計算における制約条件として課すことで、与えられた対応を満足するような対応付けモデルの学習及び対応付けを行うことが可能である。制約の付加については、制約を満足しない対応付けについて対応付け確率を0と設定することで自然に表現することが可能である。なお、記号列組データベース21は、外部に設けられ、記号列変換装置100とネットワークで接続されていてもよい。

【0039】
記号対応付け部22は、記号列変換で入力となる第1の言語体系の記号列と、当該第1の言語体系の記号列と対応する、出力となる第2の言語体系の記号列との組からなる記号列組データにおける記号間の対応付けを行う。

【0040】
記号対応付け部22は、記号列組データ読み込み部221、パラメータ初期化部222、期待値計算部223、パラメータ更新部224、停止判定部225、記号列対応付け処理部226、及び記号対応付記号列組データ出力部227を備えている。

【0041】
記号列組データ読み込み部221は、記号列組データベース21から全ての記号列組データを読み込む。

【0042】
パラメータ初期化部222は、読み込んだ記号列組データにおいて共起する全てのfji , fj-1i, eiの組み合わせに対して定義される記号バイグラム確率p(fji|fj-1i,ei)の各々に対して、初期値を与える。 各パラメータp(fji|fj-1i,ei)の初期値は一様分布として設定してもよいが、 前述の通り、期待値最大化アルゴリズムでは初期値によって収束に必要な繰り返し回数やモデル精度が変化するため、本実施の形態では、IBMモデル1などの計算がより簡便なモデルを利用して初期値を設定する。IBMモデル1は第1の言語体系の記号eiが第2の言語体系の記号fjに対応する確率pIBM1(fj|ei)を持つため、すべてのfj-1iに対してp(fji|fj-1i,ei) = pIBM1(fj|ei)となるように初期値の設定を行えばよい。

【0043】
また、パラメータ初期化部222は、読み込んだ記号列組データにおいて共起する全てのfji , fj-1i, eiの組み合わせを求める場合には、第2の言語体系の記号列Fにおいて、第1の言語体系の記号eiに対応する可能性がある、0個以上の連続する記号からなる部分記号列の全てのパターンに対して先頭と末尾を表す記号を付加し、第1の言語体系の記号eiと、対応する第2の言語体系の部分記号列(記号を付加したもの)との組み合わせを求め、当該組み合わせ毎に、当該組み合わせにおける第1の言語体系の記号eiと第2の言語体系の部分記号列のうちの記号バイグラムの各々との対応付けの各々について、記号バイグラム確率を定義する。

【0044】
例えば、記号列「マット」と記号列「mat」との組に対して、以下のような対応する記号と部分記号列との組み合わせ毎に、当該組み合わせにおける記号バイグラムとの対応付けの各々について、記号バイグラム確率を定義する。

【0045】
マ → <s> m a </s>
ッ → <s> </s> (「ッ」に対応する英語の記号は存在しない。)
ト → <s> t </s>

【0046】
ただし、<s>は部分記号列の先頭を表す記号であり、 </s>は、部分記号列の末尾を表す記号である。

【0047】
期待値計算部223は、期待値最大化アルゴリズムで利用する各記号間の対応付けの期待値の計算を行う(期待値最大化アルゴリズムにおけるいわゆる「Eステップ」)。記号バイグラム確率p(fji|fj-1i,ei)に対応するバイグラム期待値Ep(fji,fj-1i,ei)は、現在のパラメータを利用した場合に、第1の言語体系の記号ei に第2の言語体系の記号fij-1 が対応しているという条件の下でfji がf j-1i に続く第2の言語体系の記号としてei に対応するという事象の期待生起回数(条件付き期待値)であると解釈できる。連続するf j-1iとfjiがei に対応するという事象の(条件付きでない)期待生起回数(期待値)をEp(fji,fj-1i,ei)とすると、条件付き期待値であるバイグラム期待値は以下の(4)式のように計算される.

【0048】
【数4】
JP0005825639B2_000005t.gif

【0049】
Vfは記号列組データ中に現れた第2の言語体系の記号の集合である。期待値Ep(fji,fj-1i,ei) は単純には以下の(5)式のように、「連続するf j-1i とfji がei に対応するという事象」を含む対応付け確率の総和として表現される。

【0050】
【数5】
JP0005825639B2_000006t.gif

【0051】
ただしA′ は「連続するf j-1i とfji がei に対応する」ような対応付けである。この値を可能な対応付けすべてに対して計算することは非常に計算量が多く困難であるが、当該技術分野において広く知られている前向き後向き法と呼ばれる動的計画法によって効率的に計算することも可能である。

【0052】
この期待値の計算において、一部の記号列組データで記号間の対応が与えられている場合には、前述の通り当該対応付けと矛盾する対応付けについて対応付け確率を0として計算することで、強制的に与えられた対応付けと合致する対応付け結果を得ることができる。

【0053】
パラメータ更新部224は、期待値最大化アルゴリズムに従ってパラメータである上記(3)式の記号バイグラム確率を更新する(期待値最大化アルゴリズムにおけるいわゆる「Mステップ」)。更新式は以下の(6)式の通りである。パラメータの更新はすべてのパラメータ(すべてのfb, fa, ei の組み合わせ)に対して行う。

【0054】
【数6】
JP0005825639B2_000007t.gif

【0055】
p+はパラメータの更新結果であることを示す。

【0056】
停止判定部225は、設定した停止条件を満足したかどうかを判断し、停止条件を満足した場合は次の記号列対応付け処理部226の処理へ進み、満足しない場合は期待値計算部223へ戻る。このように、期待値最大化アルゴリズムにおいては、期待値計算部223とパラメータ更新部224の処理が繰り返し実行される。停止条件としては、「記号列組データにおける尤度(記号列組を与えたときの上記(3)式の確率値)変化量が閾値を下回る」、「一定の繰り返し回数を経過した」などが利用可能である。

【0057】
記号列対応付け処理部226は、最終的に確定したパラメータ(記号バイグラム確率)を用い、最適な記号対応付けを計算により求める。最適な記号対応付けの探索には公知のビタビ(Viterbi)アルゴリズム等を利用することができる。

【0058】
例えば、図3に示すような、英語とカタカナの多対1の対応付け結果が得られる。なお、図3の表記は機械翻訳の分野で広く利用されているプログラムGIZA++ の出力と互換であり、「記号列の情報(記号数、対応付けスコア)」「第1の言語体系の記号列」「各第2の言語体系の記号に対応する第1の言語体系の記号の位置」を各行に順番に記載している。

【0059】
記号対応付記号列組データ出力部227は、記号列対応付け処理部226により求められた記号間の対応付けを記号列組データに付与したものを、記号対応付記号列組データベース23に格納する。

【0060】
記号対応付記号列組データベース23は、記号間の対応付けが与えられた記号対応付記号列組データを記憶している。

【0061】
記号列変換モデル学習部24は、記号対応付記号列組データベース23から読み込んだ記号対応付記号列組データを入力として、記号間の変換を行うための統計モデルである記号列変換モデルの学習を行う。この記号列変換モデルとしては、記号組のNグラムモデル(特許第4266222号公報を参照)を利用することができる。

【0062】
具体的には、記号対応付記号列組データベース23に記憶されたデータを参照して、同時生起確率を、記号列組を構成する第1の言語体系の記号列(ソース単語)および第2の言語体系の記号列(ターゲット単語)において、ソース単語の文字とターゲット単語の文字との文字組の出現順序の確率(出現順序の頻度)として計算し、記号列変換モデルを作成する。ここで、出現順序の確率とは、着目するソース単語の文字またはターゲット単語の文字が出現するまでの各文字の状態遷移を示す履歴を条件とする条件付き確率である。つまり、あるソース単語の文字の出現と、当該ソース単語の文字の変換結果(翻字結果)であるターゲット単語の文字の出現とが同時に生起する確率として、あるソース単語の文字の直前(N-1)個の文字の履歴と、当該ターゲット単語の文字の直前(N-1)個の文字の履歴とを用いて、記号列変換モデルを作成する。なお、Nは、Nグラム言語モデルにおける「N」を示す数値である。

【0063】
なお、記号列変換モデルとして、統計的機械翻訳において利用されている句翻訳モデル(非特許文献5)を利用することもできる。

【0064】
非特許文献5:Philipp Koehn他, “Statistical Phrase-Based Translation”, Proceedings of HLT-NAACL 2003, pp.48-54, 2003

【0065】
記号列変換モデル記憶部251は、記号列変換モデル学習部24によって学習された記号列変換モデルを記憶する。

【0066】
記号列変換部26は、記号列変換モデル学習部24で学習された記号列変換モデルを利用して、入力される第1の言語体系の記号列を第2の言語体系の文字列に変換して出力する。変換方法については、記号列変換モデルに対応する形で、特許第4266222号公報や非特許文献5に記載の方法を利用することができる。

【0067】
具体的には、記号列変換部26は、記号列変換確率モデルに基づき、記号列組を構成する第1の言語体系の記号列と第2の言語体系の記号列をそれぞれ構成するソース文字およびターゲット文字に関して、文字(記号)の条件付き確率に対応する状態遷移重みを計算し、状態遷移情報データベースを予め作成する。そして、記号列変換部26は、状態遷移情報データベースが予め作成された状態で、入力された第1の言語体系の文字列を受け付ける。続いて、記号列変換部26は、予め作成された状態遷移情報データベースに基づいて、入力された第1の言語体系の文字列に対応する第2の言語体系の文字列を探索する。続いて、探索された第2の言語体系の文字列が、出力部30により出力される。

【0068】
<記号列変換装置の作用>
次に、第1の実施の形態に係る記号列変換装置100の作用について説明する。まず、対訳となっている第1の言語体系の記号列及び第2の言語体系の記号列の組である記号列組データが、記号列変換装置100に複数入力されると、記号列変換装置100によって、入力された複数の記号列組データが、記号列組データベース21に格納される。そして、記号列変換装置100によって、図4に示す記号対応付け処理ルーチンが実行される。

【0069】
まず、ステップS101において、記号列組データベース21から、全ての記号列組データを読み込む。そして、ステップS102において、上記ステップS101で取得した記号列組データにおいて共起する全てのfji , fj-1i, ei の組み合わせに対して定義される記号バイグラム確率p(fji|fj-1i,ei)の各々に対する初期値を、IBMモデル1などの計算がより簡便なモデルを利用して計算する。

【0070】
次のステップS103では、上記ステップS102で計算され、又は後述するステップS104で前回更新された記号バイグラム確率p(fji|fj-1i,ei)に基づいて、上記(4)式、(5)式に従って、共起する全てのfji , fj-1i, ei の組み合わせに対するバイグラム期待値の各々を計算する。

【0071】
ステップS104では、上記ステップS103で計算されたバイグラム期待値に基づいて、上記(6)式に従って、共起する全てのfji , fj-1i, ei の組み合わせに対して定義される記号バイグラム確率p(fji|fj-1i,ei)の各々を更新する。

【0072】
そして、ステップS105において、停止条件(例えば、繰り返し回数が所定回数に到達すること)を満たすか否かを判定する。停止条件を満たさない場合には、上記ステップS103へ戻る。一方、停止条件を満たす場合には、ステップS106において、上記ステップS104で最終的に更新された記号バイグラム確率に基づいて、記号列組データの各々において、記号間の対応付けを探索し、第1の言語体系の記号列と第2の言語体系の記号列とにおける記号間の最適な対応付けを求める。

【0073】
そして、ステップS107において、記号列組データの各々に対して、上記ステップS106で求めた記号間の対応付けを付与して、記号対応付記号列組データベース23に格納し、記号対応付け処理ルーチンを終了する。

【0074】
そして、記号列変換装置100は、記号対応付記号列組データベース23に格納されたデータに基づいて、記号列組の各記号列(第1の言語体系の単語および第2の言語体系の単語)において、記号の同時生起確率を、履歴を条件とする条件付き確率として計算し、記号列変換モデルを作成し、記号列変換モデルを、記号列変換モデル記憶部251に格納する。

【0075】
そして、記号列変換装置100は、記号列変換モデルに基づき、記号列組を構成する第1の言語体系(変換元)の記号列と第2の言語体系(変換先)の記号列をそれぞれ構成する記号に関して、記号の条件付き確率に対応する状態遷移重みを計算し、状態遷移情報データベースを予め作成する。

【0076】
そして、変換元となる第1の言語体系の記号列が、記号列変換装置100に入力されると、記号列変換装置100は、予め作成しておいた状態遷移情報データベースに基づいて、入力された第1の言語体系の記号列に対応する第2の言語体系の記号列を探索する。探索された第2の言語体系の記号列が、記号列変換結果として出力部30による出力される。

【0077】
以上説明したように、本発明の第1の実施の形態に係る記号列変換装置によれば、第1の言語体系の記号と、第2の言語体系の0個以上の連続する部分記号列の先頭及び末尾の各々に記号を追加した部分記号列とから得られる、第1の言語体系の記号と対応する第2の言語体系の部分記号列のうちの記号バイグラムとの対応付けの各々に対する記号バイグラム確率を、期待値最大化アルゴリズムに従って繰り返し更新して、記号バイグラム確率に基づいて、第1の言語体系の記号と第2の言語体系の記号とを対応付けることにより、記号の連接関係を考慮して、異なる言語体系の記号列の組における記号間の対応付けを精度よく行うことができる。

【0078】
また、精度よく対応付けられた記号列組に基づいて、第1の言語体系の記号列から第2の言語体系の記号列への変換を精度よく行うための記号列変換モデルを学習することができる。また、学習された記号列変換モデルを用いて、第1の言語体系の記号列から第2の言語体系の記号列への変換を精度よく行うことができる。

【0079】
また、第1の言語体系の記号と第2の言語体系の記号の多対1の対応付けにおいて、第2の言語体系の記号に対応する複数の第1の言語体系の記号の連接関係や、対応する第1の言語体系の記号が存在しない第2の言語体系の記号の存在を自然に統計モデルとして表現でき、高い精度で記号の対応付けやそれに基づく記号列変換が実現できる。

【0080】
〔第2の実施の形態〕
<システム構成>
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

【0081】
第2の実施の形態では、第1の言語体系の記号列と第2の言語体系の記号列とにおいて多対多の記号間の対応付けを求めている点が、第1の実施の形態と異なっている。

【0082】
図5に示すように、第2の実施の形態に係る記号列変換装置200の演算部220は、記号列組データベース21、記号対応付け部22、記号対応付記号列組データベース23、記号列変換モデル学習部24、記号列変換モデル記憶部25、及び記号列変換部26を備えている。

【0083】
ここで、上記の第1の実施の形態で説明した記号間の対応付け方法は、第1の言語体系の複数の記号と第2の言語体系の1個の記号との多対1の対応関係を求めるものであって、一般的な多対多の対応関係を直接求めることができない。しかし、上記の非特許文献5記載の方法のように、第1の言語体系の記号と第2の言語体系の記号の多対1の関係に加え、 第1の言語体系と第2の言語体系を反転させて多対1の記号対応付けを行うことで得られる1対多の関係を利用することで多対多の対応関係を推定する方法が知られており、本発明においても利用することが可能である。

【0084】
そこで、本実施の形態では、記号対応付け部22は、記号列組データ読み込み部221、パラメータ初期化部222、期待値計算部223、パラメータ更新部224、停止判定部225、記号列対応付け処理部226、パラメータ初期化部322、期待値計算部323、パラメータ更新部324、停止判定部325、記号対応付け処理部326、多対多対応推定部327、及び記号対応付記号列組データ出力部227を備えている。

【0085】
パラメータ初期化部322は、読み込んだ記号列組データにおいて共起する全てのeji , ej-1i, fiの組み合わせに対して定義される記号バイグラム確率p(eji|ej-1i,fi)の各々に対して、パラメータ初期化部222と同様に、初期値を与える。

【0086】
期待値計算部323は、期待値計算部223と同様に、記号バイグラム確率p(eji|ej-1i,fi)に対応するバイグラム期待値Ep(eji,ej-1i,fi)を、上記(4)式、(5)式と同様の式に従って、それぞれ計算する。

【0087】
パラメータ更新部324は、パラメータ更新部224と同様に、上記(6)式と同様の式に従って、記号バイグラム確率の更新を、すべてのパラメータ(すべてのfb, fa, ei の組み合わせ)に対して行う。

【0088】
停止判定部325は、設定した停止条件を満足したかどうかを判断し、停止条件を満足した場合は次の記号対応付け処理部326の処理へ進み、満足しない場合は期待値計算部323へ戻る。

【0089】
記号対応付け処理部326は、最終的に確定したパラメータ(記号バイグラム確率)を用い、最適な記号対応付けを計算により求める。最適な記号対応付けの探索には公知のビタビ(Viterbi)アルゴリズム等を利用することができる。

【0090】
多対多対応推定部327は、記号列対応付け処理部226によって求められた記号間の対応付けと、記号対応付け処理部326によって求められた記号間の対応付けとに基づいて、第1の言語体系の記号列と第2の言語体系の記号列とにおける多対多の記号間の対応付けを推定する。

【0091】
記号対応付記号列組データ出力部227は、多対多対応推定部327により求められた記号間の対応付けを記号列組データに付与し、記号対応付記号列組データベース23に格納する。

【0092】
<記号列変換装置の作用>
次に、第2の実施の形態に係る記号列変換装置200の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して説明を省略する。

【0093】
まず、対訳となっている第1の言語体系の記号列及び第2の言語体系の記号列の組である記号列組データが、記号列変換装置200に複数入力されると、記号列変換装置200によって、入力された複数の記号列組データが、記号列組データベース21に格納される。そして、記号列変換装置200によって、図6に示す記号対応付け処理ルーチンが実行される。

【0094】
ステップS101において、記号列組データベース21から、全ての記号列組データを読み込む。そして、ステップS202において、記号列組データの各々の第1の言語体系の記号列と第2の言語体系の記号列とにおける1対多の記号間の対応付けを求める。具体的には、上記の第1の実施の形態で説明した記号対応付け処理ルーチンのステップS102~ステップS108によって実現される。

【0095】
次のステップS203では、記号列組データの各々の第1の言語体系の記号列と第2の言語体系の記号列とにおける多対1の記号間の対応付けを求める。具体的には、上記の第1の実施の形態で説明した記号対応付け処理ルーチンのステップS102~ステップS108の処理において、第1の言語体系と第2の言語体系との入れ替えた処理によって実現される。

【0096】
そして、ステップS204において、上記ステップS202で求めた1対多の記号間の対応付けと、上記ステップS203で求めた多対1の記号間の対応付けとに基づいて、記号列組データの各々について、第1の言語体系の記号列と第2の言語体系の記号列とにおける多対多の記号間の対応付けを推定する。

【0097】
そして、ステップS107において、記号列組データの各々に対して、上記ステップS204で求めた多対多の記号間の対応付けを付与して、記号対応付記号列組データベース23に格納し、記号対応付け処理ルーチンを終了する。

【0098】
なお、第2の実施の形態に係る記号列変換装置200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。

【0099】
以上説明したように、第2の実施の形態に係る記号列変換装置によれば、第1の言語体系の記号と対応する第2の言語体系の部分記号列のうちの記号バイグラムとの対応付けの各々に対する記号バイグラム確率を、期待値最大化アルゴリズムに従って繰り返し更新して、記号バイグラム確率に基づいて、第1の言語体系の記号と第2の言語体系の記号とを多対1で対応付けると共に、第2の言語体系の記号と対応する第1の言語体系の部分記号列のうちの記号バイグラムとの対応付けの各々に対する記号バイグラム確率を、期待値最大化アルゴリズムに従って繰り返し更新して、記号バイグラム確率に基づいて、第1の言語体系の記号と第2の言語体系の記号とを1対多で対応付けて、多対多の対応付けを推定する。これによって、記号の連接関係を考慮して、異なる言語体系の記号列の組における記号間の多対多の対応付けを精度よく行うことができる。

【0100】
<実施例>

【0101】
次に本発明を実施した例について示す。本実施例では第1の言語体系の記号として英語、第2の言語体系の記号としてカタカナ表記を利用した。上記図2は、英語とカタカナの記号列組データを抜粋したものである。この記号列組データを利用して記号対応付け部22の機能(記号列組データ読み込み部221、パラメータ初期化部222、期待値計算部223、パラメータ更新部224、停止判定部225、記号列対応付け処理部226、パラメータ初期化部322、期待値計算部323、パラメータ更新部324、停止判定部325、記号対応付け処理部326、及び多対多対応推定部327)を実現したコンピュータプログラムを動作させた。パラメータ初期化部222では、IBMモデル1を用いた期待値計算処理、パラメータ更新処理を5回繰り返した。また、停止判定部225、326における停止条件で用いる、期待値計算部223とパラメータ更新部224の繰り返し回数、及び期待値計算部323とパラメータ更新部324の繰り返し回数は、それぞれ10回とした。

【0102】
上記図3は英語とカタカナの多対1対応付けの結果を抜粋したものである。さらに、第1と第2の言語体系の記号の順序を入れ替えて同様の処理を行うことによって、 図7に抜粋したような、英語とカタカナの1対多対応付けを得た。

【0103】
上記図3および図7に記載の記号対応付け結果を用いて、多対多対応の推定を、上記非特許文献5に記載の方法を実現したプログラムsymalを使用して行った。symalは複数の方式で多対多対応の推定を行うことができるが、本実施例では機械翻訳の分野で多く用いられている、grow-diag-final-andと呼ばれる方式を利用した。多対多対応付けの結果を図8に示す。図8の各行は各記号列組データに対応し、各行は「英語の記号の0から始まる位置」と「カタカナの0から始まる位置」の組を順に記している。この多対多対応付けの結果から、記号対応付記号列組データを作成する。多対多対応された記号列組から記号組列に変換するために、本実施例では多対多対応している英語部分文字列とカタカナ部分文字列を部分文字列組とし、その部分文字列組の列を、記号対応付記号列組データとした。その例を図9に示す。

【0104】
記号対応付記号列組データからの記号列変換モデルの学習には、上記の特許4266222号公報に記載の記号組のNグラムモデル(N=3)を利用した。記号列からの3グラムモデルの学習には公知の統計的言語モデル学習プログラムSRILMを利用し、さらに3グラムモデルを、重み付き有限状態トランスデューサ(WFST)と呼ばれる形式に等価変換した。このWFSTは各状態遷移で記号(英語記号列E′=e1′,...,eI′とカタカナ記号列F′=f1′,...,fJ′の組)を受理し、同じ記号を出力する有限状態機械であるので、記号列変換モデルとして利用するために、各状態遷移を、e1′,...,eI′を受理し何も出力しない状態遷移と、何も入力せずにf1′,...,fJ′を出力する状態遷移の列に分解する。図10はWFSTの状態遷移を記述したファイルの抜粋であり、先頭の“T”は状態遷移の記述であること、続く2つの数字は遷移元状態番号と遷移先状態番号、続く2つの記号は入力記号と出力記号を表し、記号“,”は空記号(入力記号なしもしくは出力記号なし)を表す。末尾の数値は遷移時の重み(確率の対数の符号反転値)である。例では英語の記号列“boo”がカタカナ列“ボー”、“borlau”が“ボーロー”、“borough”が“バロ”にそれぞれ重み10.4096で変換され、状態1からそれぞれ状態275、276、277へ遷移することを表している。

【0105】
そして、このWFSTを記号列変換モデルとして、公知のWFSTデコーダKyfdを利用して図11に示した英語記号列を変換した結果、図12に示したカタカナ列に変換された。図12は先頭および末尾を表す記号<s>、</s>のついた変換後のカタカナ列および変換確率の対数値が記されている。

【0106】
また、上記の実施例に基づく記号列変換の実験では、4000個の英語記号列のカタカナ列への変換において、上記の非特許文献2のHMMモデルに基づく方法の正解率が40.6%であったのに対し、本発明の方法での正解率は44.3%であった。

【0107】
また、上記の特許4266222号公報に記載の、複数の記号列変換結果候補から最適な記号列変換結果を得る方法を利用した実験においては、約40,000個のカタカナ列集合から正しいカタカナ列を選択できた割合が、非特許文献2のHMMモデルに基づく方法で90.0%であったのに対し、本発明の方法では92.1%となった。

【0108】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

【0109】
例えば、第1の言語体系の記号に対応する第2の言語体系の部分記号列の先頭及び末尾に記号<s>、</s>を追加する場合を例に説明したが、これに限定されるものではなく、第1の言語体系の記号に対応する第2の言語体系の部分記号列の先頭及び末尾に明示的に記号を追加しなくてもよい。この場合には、第1の言語体系の記号に対応する第2の言語体系の部分記号列に対して、先頭、末尾に追加される記号の存在を仮定して、記号バイグラム確率を定義すればよい。

【0110】
また、異なる言語体系の記号列の変換を行う場合を例に説明したが、これに限定されるものではなく、言語体系以外の体系の記号列の変換に、本発明を適用してもよい。

【0111】
また、記号バイグラム確率を用いる場合を例に説明したが、これに限定されるものではなく、記号Nグラム確率(Nは3以上の整数)を用いても良い。

【0112】
また、第1の言語体系の記号列から第2の言語体系の記号列に変換するための記号列変換モデルを学習し、入力された第1の言語体系の記号列から第2の言語体系の記号列へ変換する場合を例に説明したが、これに限定されるものではなく、第2の言語体系の記号列から第1の言語体系の記号列に変換するための記号列変換モデルを学習し、入力された第2の言語体系の記号列から第1の言語体系の記号列へ変換するようにしてもよい。

【0113】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0114】
10 入力部
20、220 演算部
21 記号列組データベース
22 記号対応付け部
23 記号対応付記号列組データベース
24 記号列変換モデル学習部
25 記号列変換モデル記憶部
26 記号列変換部
100、200記号列変換装置
222、322パラメータ初期化部
223、323期待値計算部
224、324パラメータ更新部
225、325停止判定部
226、326記号列対応付け処理部
227 記号対応付記号列組データ出力部
251 記号列変換モデル記憶部
327 多対多対応推定部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11