TOP > 国内特許検索 > 対応付け装置及びプログラム

対応付け装置及びプログラム コモンズ

国内特許コード P140010735
整理番号 03-47
掲載日 2014年7月7日
出願番号 特願2003-160464
公開番号 特開2004-362305
登録番号 特許第3820452号
出願日 平成15年6月5日(2003.6.5)
公開日 平成16年12月24日(2004.12.24)
登録日 平成18年6月30日(2006.6.30)
発明者
  • 馬 青
  • 張 玉潔
  • 村田 真樹
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 対応付け装置及びプログラム コモンズ
発明の概要 【課題】意味に基づく単語の対応付けを自動で行うこと。
【解決手段】コーパスデータ3と、翻訳辞書2と、入力された対訳文の単語のコーディングを行うデータコーディング手段1aと、前記入力された対訳文の単語を自動でマップする自己組織化マップ手段4aとを備え、前記データコーディング手段1aは、前記入力された対訳文の一方の言語の単語は前記コーパスデータ3中の前記入力された対訳文の一方の言語の単語及びその周辺の単語である共起語と共起頻度で定義すると共に、前記入力された対訳文の他方の言語の単語は前記翻訳辞書2を用いて一方の言語の訳語候補を求め、該求めた訳語候補から前記コーパスデータ3を利用して共起語と共起頻度で定義し、前記自己組織化マップ手段4aは、前記共起語と共起頻度で定義した入力された対訳文の単語から前記入力された対訳文の単語の自動マップを行う。
【選択図】 図1
従来技術、競合技術の概要



対訳コーパスから翻訳知識を抽出するためには、文レベルだけでなく単語レベルでのアライメントも必要である。対訳コーパスが単語レベルでアライメントされていれば、辞書に載っていない、ドメインや時期などに依存する訳語が得られたり、複数の訳語候補へのスコアリングができたり、更には単語の対訳関係をもとにして、句や節単位の対応関係といった翻訳パターンが自動獲得されることが期待できる(例えば、非特許文献1参照。)。





このように、アライメントは自然言語処理の分野で非常に重要かつ基本的な研究課題である。関連する研究としては、Brown らが考案した一連の統計モデル(例えば、非特許文献2、3参照。)、それから、ダイナミックプログラミングを用いる手法(例えば、非特許文献4参照。)や、最近では文脈情報を導入した統計手法(例えば、非特許文献5参照。)、さらには構造化アライメント法(例えば、非特許文献6、7、8参照。)が挙げられる。





【非特許文献1】

Brown, Ralf D.: Automated dictionary example-based translation, Proceedings of the Seventh International Conference on Theoretical and Methodological Issues in Machine Translation , pp. 111-118. 1997.

【非特許文献2】

Brown, PF., Cocke, J., Della Pietra, SA., Della Pietra, VJ., Jelinek, F., Mercer RL., Roossin, P.: A statistical approach to language translation, COLING'88, pp. 71-76, 1988.

Brown, PF., Della Pietra, SA., Della Pietra, VJ., Mercer RL.: The mathematics of statistical machine translation: parameter estimation,Computational Linguistics, Vol. 19, No. 2, pp.263-3 11, 1993.

【非特許文献4】

Dagan I, Church KW, Gale WA.: Robust bilingual word alignment for machine aided translation, Proceedings of the Workshop on Very Large Corpora, pp. 1-8, 1993.

【非特許文献5】

Varea, IG., Och, FJ, Casacuberta: Improving alignment quality in statistical machine translation using context-dependent maximum entropy models, COLING2002 , pp.1051- 1057, 2002.

【非特許文献6】

Kaji, H., Kida, Y., Morimoto Y.: Learning translation templates from bilingual text, COLING'92, pp. 672-678, 1992.

【非特許文献7】

Matsumoto, Y., Ishimoto, H, Utsuro, T.: Structural matching of parallel texts, ACL'93, pp. 23-30, 1993.

【非特許文献8】

Imamura, K.: Hierarchical phrase alignment harmonized with parsing, NLPRS2001, pp. 377-384, 2001.

産業上の利用分野



本発明は、日中対訳文(日本語とその中国語の翻訳文)等の対訳文を入力し、意味に基づく二言語の単語のアライメント(対応付け)を自動で行う対応付け装置に関する。

特許請求の範囲 【請求項1】
一方の言語の一定量の文書データを格納するコーパスデータと、
他方の言語から一方の言語に翻訳する辞書を格納する翻訳辞書と、
入力された対訳文の単語のコーディングを行うデータコーディング手段と、
前記入力された対訳文の単語を自動でマップする自己組織化マップ手段とを備え、
前記データコーディング手段は、前記入力された対訳文の一方の言語の単語を前記コーパスデータ中の前記入力された対訳文の一方の言語の単語及びその前後の単語である共起語と共起頻度で定義すると共に、前記入力された対訳文の他方の言語の単語を前記翻訳辞書を用いて一方の言語の訳語候補を求め、該求めた訳語候補から前記コーパスデータを利用して共起語と共起頻度で定義し、
前記自己組織化マップ手段は、前記共起語と共起頻度で定義した入力された対訳文の単語から前記共起語と共起頻度により単語間の距離を求め、該求めたある単語との距離が小さい単語ほど、前記ある単語に対してこれら以外の単語より小さい距離に配置するようにして、前記入力された対訳文の単語の自動マップを行うことを特徴とした対応付け装置。

【請求項2】
前記データコーディング手段は、前記共起語として前記コーパスデータ中の前記入力された対訳文の一方の言語の単語及びその前後1つずつの単語とすることを特徴とした請求項1記載の対応付け装置。

【請求項3】
コーパスデータとして一方の言語の一定量の文書データを格納する手段と、
翻訳辞書として他方の言語から一方の言語に翻訳する辞書を格納する手段と、
前記入力された対訳文の一方の言語の単語を前記コーパスデータ中の前記入力された対訳文の一方の言語の単語及びその前後の単語である共起語と共起頻度で定義すると共に、前記入力された対訳文の他方の言語の単語を、前記翻訳辞書を用いて一方の言語の訳語候補を求め、該求めた訳語候補から前記コーパスデータを利用して共起語と共起頻度で定義するデータコーディング手段と、
前記共起語と共起頻度で定義した入力された対訳文の単語から前記共起語と共起頻度により単語間の距離を求め、該求めたある単語との距離が小さい単語ほど、前記ある単語に対してこれら以外の単語より小さい距離に配置するようにして、前記入力された対訳文の単語の自動マップを行う自己組織化マップ手段として、
コンピュータを機能させるためのプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2003160464thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close