TOP > 国内特許検索 > 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム

記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム

国内特許コード P150012413
整理番号 3772
掲載日 2015年10月16日
出願番号 特願2012-161994
公開番号 特開2014-021863
登録番号 特許第5825639号
出願日 平成24年7月20日(2012.7.20)
公開日 平成26年2月3日(2014.2.3)
登録日 平成27年10月23日(2015.10.23)
発明者
  • 須藤 克仁
  • 永田 昌明
  • 森 信介
出願人
  • 日本電信電話株式会社
  • 国立大学法人京都大学
発明の名称 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム
発明の概要 【課題】記号の連接関係を考慮して、異なる体系の記号列の組における記号の対応付けを精度よく行うことができるようにする。
【解決手段】パラメータ初期化部223によって、全ての記号列組データにおいて共起する、第1の体系の記号と、第2の体系の0個以上の連続する記号の先頭及び末尾の各々に記号を追加した部分記号列のうちの対応する記号バイグラムとの対応付けの各々に対して、記号バイグラム確率を定義して初期値を設定する。期待値計算部223によって、記号バイグラム確率に基づいて、記号バイグラムとの対応付けの各々に対する期待値を計算し、パラメータ更新部224によって、各記号バイグラム確率を更新する。停止条件判定部225によって停止条件が満たされたと判定されるまで、期待値計算部223及びパラメータ更新部224を繰り返す。記号列対応付け処理部226によって、記号バイグラム確率に基づいて、記号間の対応付けを行う。
【選択図】図1
従来技術、競合技術の概要


ある言語から別の言語への翻訳を機械的に実現する機械翻訳や、ある言語の音韻体系で表記された語句を別の言語の音韻体系での表記に変換する機械翻字を、統計モデルとして表現するために、互いが対応する文や語句の組を統計モデルの学習のためのデータとして利用して、文を構成する語句同士や、語句を構成する文字同士の対応関係を推定することが広く行われている(例えば、非特許文献1、非特許文献2、非特許文献3)。こうした記号間の対応関係の推定方法の多くは、期待値最大化(EM)アルゴリズムに基づいており、記号間の対応関係を明に与えることなく、対応する記号列の組から個々の記号の対応を学習可能である。



非特許文献1および非特許文献2は機械翻訳のための単語対応付けを目的としており、翻訳における単語の順序の入れ替えを含めた多対1の単語対応付け方法について記している。また、非特許文献3は英語の音韻表現と日本語におけるカタカナ語のローマ字化された表記との間での音韻記号-ローマ字間の1対多の対応付け方法について記している。さらに、非特許文献4は英語の文字と音韻表記との多対多の対応付けについて記している。

産業上の利用分野


本発明は、記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラムに係り、特に、異なる体系の記号列の組における記号の対応付けを行う記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラムに関する。

特許請求の範囲 【請求項1】
異なる第1の体系及び第2の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け装置であって、
前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第1の体系の記号と、前記第2の体系の0個以上の連続する記号の先頭及び末尾の各々に特定の記号を追加した部分記号列とから得られる、前記第1の体系の記号と対応する前記第2の体系の部分記号列のうちの記号のNグラム(Nは2以上の整数)との対応付けの各々に対して、前記対応付けの確率を表わすNグラム確率の初期値を設定する初期値設定手段と、
前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するNグラム確率に基づいて、前記対応付けの各々に対する期待値を計算する期待値計算手段と、
前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するNグラム確率を更新するパラメータ更新手段と、
予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返す停止条件判定手段と、
前記記号列組の各々に対して、前記Nグラム確率の各々に基づいて、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け手段と、
を含む記号列対応付け装置。

【請求項2】
請求項1記載の記号列対応付け装置によって対応付けが行われた前記複数組の記号列組に基づいて、前記第1の体系の記号列と前記第2の体系の記号列との間の変換を行うための記号列変換モデルを学習する学習手段
を含む記号列変換モデル学習装置。

【請求項3】
請求項2記載の記号列変換モデル学習装置によって学習された前記記号列変換モデルに基づいて、入力された前記第1の体系及び前記第2の体系の何れか一方の記号列を、前期第1の体系及び前記第2の体系の何れか他方の記号列に変換する記号列変換手段
を含む記号列変換装置。

【請求項4】
異なる第1の体系及び第2の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け装置における記号列対応付け方法であって、
初期値設定手段によって、前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第1の体系の記号と、前記第2の体系の0個以上の連続する記号の先頭及び末尾の各々に特定の記号を追加した部分記号列とから得られる、前記第1の体系の記号と対応する前記第2の体系の部分記号列のうちの記号のNグラム(Nは2以上の整数)との対応付けの各々に対して、前記対応付けの確率を表わすNグラム確率の初期値を設定し、
期待値計算手段によって、前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するNグラム確率に基づいて、前記対応付けの各々に対する期待値を計算し、
パラメータ更新手段によって、前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するNグラム確率を更新し、
停止条件判定手段によって、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返し、
記号列対応付け手段によって、前記記号列組の各々に対して、前記Nグラム確率の各々に基づいて、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける
記号列対応付け方法。

【請求項5】
学習手段によって、請求項4記載の記号列対応付け方法によって対応付けが行われた前記複数組の記号列組に基づいて、前記第1の体系の記号列と前記第2の体系の記号列との間の変換を行うための記号列変換モデルを学習する
記号列変換モデル学習方法。

【請求項6】
記号列変換手段によって、請求項5記載の記号列変換モデル学習方法によって学習された前記記号列変換モデルに基づいて、入力された前記第1の体系及び前記第2の体系の何れか一方の記号列を、前期第1の体系及び前記第2の体系の何れか他方の記号列に変換する
記号列変換方法。

【請求項7】
コンピュータを、請求項1記載の記号列対応付け装置の各手段として機能させるためのプログラム。

【請求項8】
コンピュータを、請求項2記載の記号列変換モデル学習装置の各手段として機能させるためのプログラム。

【請求項9】
コンピュータを、請求項3記載の記号列変換装置の各手段として機能させるためのプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2012161994thum.jpg
出願権利状態 登録
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください。


PAGE TOP

close
close
close
close
close
close
close