Top > Search of Japanese Patents > MAPPING DEVICE AND PROGRAM

MAPPING DEVICE AND PROGRAM commons

Patent code P140010735
File No. 03-47
Posted date Jul 7, 2014
Application number P2003-160464
Publication number P2004-362305A
Patent number P3820452
Date of filing Jun 5, 2003
Date of publication of application Dec 24, 2004
Date of registration Jun 30, 2006
Inventor
  • (In Japanese)馬 青
  • (In Japanese)張 玉潔
  • (In Japanese)村田 真樹
  • (In Japanese)井佐原 均
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title MAPPING DEVICE AND PROGRAM commons
Abstract PROBLEM TO BE SOLVED: To automatically perform mapping of words based on the meaning.
SOLUTION: This device comprises corpus data 3, a translation dictionary 2, a data coding means 1a for coding words of an inputted parallel translation text, and a self-organization mapping means 4a for automatically mapping the words of the inputted parallel translation text. The data coding means 1a defines a word of one language of the inputted parallel translation text at a cooccurrence frequency of the word of the one language of the inputted parallel translation text in the corpus data 3 with a cooccurrence word that is a word around it, and determines translation candidates of one language by use of the translation dictionary 2 to define the word of the other language of the inputted parallel translation text from the determined translation candidates by use of the corpus data 3 at the cooccurrence frequency with the cooccurrence word. The self-organization mapping means 4a automatically maps the words of the inputted parallel translation text from the words of the inputted parallel translation text defined at the cooccurrence frequency with the cooccurrence word.
Outline of related art and contending technology (In Japanese)

対訳コーパスから翻訳知識を抽出するためには、文レベルだけでなく単語レベルでのアライメントも必要である。対訳コーパスが単語レベルでアライメントされていれば、辞書に載っていない、ドメインや時期などに依存する訳語が得られたり、複数の訳語候補へのスコアリングができたり、更には単語の対訳関係をもとにして、句や節単位の対応関係といった翻訳パターンが自動獲得されることが期待できる(例えば、非特許文献1参照。)。

このように、アライメントは自然言語処理の分野で非常に重要かつ基本的な研究課題である。関連する研究としては、Brown らが考案した一連の統計モデル(例えば、非特許文献2、3参照。)、それから、ダイナミックプログラミングを用いる手法(例えば、非特許文献4参照。)や、最近では文脈情報を導入した統計手法(例えば、非特許文献5参照。)、さらには構造化アライメント法(例えば、非特許文献6、7、8参照。)が挙げられる。

【非特許文献1】

Brown, Ralf D.: Automated dictionary example-based translation, Proceedings of the Seventh International Conference on Theoretical and Methodological Issues in Machine Translation , pp. 111-118. 1997.

【非特許文献2】

Brown, PF., Cocke, J., Della Pietra, SA., Della Pietra, VJ., Jelinek, F., Mercer RL., Roossin, P.: A statistical approach to language translation, COLING'88, pp. 71-76, 1988.

Brown, PF., Della Pietra, SA., Della Pietra, VJ., Mercer RL.: The mathematics of statistical machine translation: parameter estimation,Computational Linguistics, Vol. 19, No. 2, pp.263-3 11, 1993.

【非特許文献4】

Dagan I, Church KW, Gale WA.: Robust bilingual word alignment for machine aided translation, Proceedings of the Workshop on Very Large Corpora, pp. 1-8, 1993.

【非特許文献5】

Varea, IG., Och, FJ, Casacuberta: Improving alignment quality in statistical machine translation using context-dependent maximum entropy models, COLING2002 , pp.1051- 1057, 2002.

【非特許文献6】

Kaji, H., Kida, Y., Morimoto Y.: Learning translation templates from bilingual text, COLING'92, pp. 672-678, 1992.

【非特許文献7】

Matsumoto, Y., Ishimoto, H, Utsuro, T.: Structural matching of parallel texts, ACL'93, pp. 23-30, 1993.

【非特許文献8】

Imamura, K.: Hierarchical phrase alignment harmonized with parsing, NLPRS2001, pp. 377-384, 2001.

Field of industrial application (In Japanese)

本発明は、日中対訳文(日本語とその中国語の翻訳文)等の対訳文を入力し、意味に基づく二言語の単語のアライメント(対応付け)を自動で行う対応付け装置に関する。

Scope of claims (In Japanese)
【請求項1】
 
一方の言語の一定量の文書データを格納するコーパスデータと、
他方の言語から一方の言語に翻訳する辞書を格納する翻訳辞書と、
入力された対訳文の単語のコーディングを行うデータコーディング手段と、
前記入力された対訳文の単語を自動でマップする自己組織化マップ手段とを備え、
前記データコーディング手段は、前記入力された対訳文の一方の言語の単語を前記コーパスデータ中の前記入力された対訳文の一方の言語の単語及びその前後の単語である共起語と共起頻度で定義すると共に、前記入力された対訳文の他方の言語の単語を前記翻訳辞書を用いて一方の言語の訳語候補を求め、該求めた訳語候補から前記コーパスデータを利用して共起語と共起頻度で定義し、
前記自己組織化マップ手段は、前記共起語と共起頻度で定義した入力された対訳文の単語から前記共起語と共起頻度により単語間の距離を求め、該求めたある単語との距離が小さい単語ほど、前記ある単語に対してこれら以外の単語より小さい距離に配置するようにして、前記入力された対訳文の単語の自動マップを行うことを特徴とした対応付け装置。

【請求項2】
 
前記データコーディング手段は、前記共起語として前記コーパスデータ中の前記入力された対訳文の一方の言語の単語及びその前後1つずつの単語とすることを特徴とした請求項1記載の対応付け装置。

【請求項3】
 
コーパスデータとして一方の言語の一定量の文書データを格納する手段と、
翻訳辞書として他方の言語から一方の言語に翻訳する辞書を格納する手段と、
前記入力された対訳文の一方の言語の単語を前記コーパスデータ中の前記入力された対訳文の一方の言語の単語及びその前後の単語である共起語と共起頻度で定義すると共に、前記入力された対訳文の他方の言語の単語を、前記翻訳辞書を用いて一方の言語の訳語候補を求め、該求めた訳語候補から前記コーパスデータを利用して共起語と共起頻度で定義するデータコーディング手段と、
前記共起語と共起頻度で定義した入力された対訳文の単語から前記共起語と共起頻度により単語間の距離を求め、該求めたある単語との距離が小さい単語ほど、前記ある単語に対してこれら以外の単語より小さい距離に配置するようにして、前記入力された対訳文の単語の自動マップを行う自己組織化マップ手段として、
コンピュータを機能させるためのプログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2003160464thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close