Top > Search of Japanese Patents > MACHINE TRANSLATION METHOD AND MACHINE TRANSLATION DEVICE

MACHINE TRANSLATION METHOD AND MACHINE TRANSLATION DEVICE commons

Patent code P140010745
File No. 02-09
Posted date Jul 7, 2014
Application number P2004-023914
Publication number P2005-216127A
Patent number P3921543
Date of filing Jan 30, 2004
Date of publication of application Aug 11, 2005
Date of registration Mar 2, 2007
Inventor
  • (In Japanese)内元 清貴
  • (In Japanese)井佐原 均
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title MACHINE TRANSLATION METHOD AND MACHINE TRANSLATION DEVICE commons
Abstract PROBLEM TO BE SOLVED: To provide a machine translation device and method capable of outputting a suitable text of a translation destination language even in case that a translation source language or the translation destination language does not have a sufficient environment such as corpus, or a text to be inputted is inaccurate.
SOLUTION: When a text 31 of the translation source language is inputted to the mechanical translation device 30, a characteristic word extraction part 50 extracts characteristic words 33 from the input text. A parallel translation selection part 60 selects an optimum translation 34 of each characteristic word 33. Further, a plurality of translations 34 are inputted to a text generation part 70, whereby a most natural generation text 35 containing the translated words can be obtained. A text 32 of the translation destination language is outputted from an output part 80.
Outline of related art and contending technology (In Japanese)

従来の機械翻訳方法においては、例えば特許文献1に開示される機械翻訳の手法が知られている。該特許文献でも開示されているように従来の機械翻訳方法は、例えば日本語から英語への翻訳を行う場合に、日本語の解析を行って、文の意味構造を導出する。
この意味構造は木構造や意味ネットワークで表現できる。そして、生成された意味ネットワークを解析し、適切な訳語を選択して目的とする訳文を生成する処理を行っているものがある。

ここで、意味ネットワークは意味記号を付加したノードと、ノード間の関係情報を付加したアークとによって記述されており、各ノードには翻訳文を生成する際に必要な文生成規則が付加される。生成時には文生成規則に基づき、英語の単語とその文法属性とを検索し、次にアークの情報と整合する単語、品詞、文型をそれぞれ決定する処理を行う。

【特許文献1】
特公平8-33895号公報

また、近年、大量のコーパスが利用可能となり、自然な表層文を生成する目的にもコーパスが利用されるようになってきている。その典型例の1つが機械翻訳に用いられる言語モデルであり、例えば非特許文献1で開示されている。
ここで示される統計的機械翻訳では、原言語で書かれたテキストをS、目的言語で書かれたテキストをTとして、Sが与えられたときにTを生成する確率Pが最大になるようなテキストを最適な翻訳として出力する。
この時用いられるモデルとしては、単語や句を原言語から目的言語に置き換えるための翻訳モデルと、置き換えた単語や句を目的言語側で尤もらしい順序に並べ替えるための言語モデルがある。

【非特許文献1】
Brown,P.F., Cocke,J., Piera,S.A.D.,Pietra,V.J.D., Jelinek,F., Lalfferty,J.D., Mercer,R.L., and Roossin,P.S.(1990). "A Statistical Approach to MachineTranslation." Computationallingustics,16(2),79-85

このような従来の統計的機械翻訳の手法では、与えられた語の集合を並べ換えると自然な文を生成できるという仮定がある。つまり、自然な文を生成するための語の集合は翻訳モデルにより過不足なく生成されることが前提となっている。
しかし、この前提のためには大規模な対訳コーパスが必要であり、日本語などの比較的コーパスが整備された言語が原言語であっても、対象言語との対訳コーパスの状況、対象言語におけるコーパスの状況によっては、上記従来の手法では十分な翻訳精度の向上が望めない問題があった。

また、特に話し言葉や、文法的な誤り、記述上の誤りなど原言語の表現が不適切な場合に、これら従来の方法では正しい意味構造の解析や翻訳モデルの作用が不可能であり、全く誤った翻訳結果を出力してしまうことがある。

Field of industrial application (In Japanese)

本発明は機械翻訳装置に関する。特に、翻訳元言語のテキストを入力し、翻訳先言語のテキストを出力するまでの処理手法に係る技術である。

Scope of claims (In Japanese)
【請求項1】
 
所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する機械翻訳装置であって、
翻訳元テキストを受理する受理手段、
該翻訳元テキストを形態素解析してその結果得られた各形態素を順に着目タームとし、翻訳元言語で記述された複数の文書を含む翻訳元言語文書データベースを用いて、該文書データベースの中から該着目タームが含まれる文書と、該文書データベースに含まれる全文書とのそれぞれにおける着目タームの分布間の距離を算出し、該距離が所定の閾値以上の着目タームを特徴的な意味を有する特徴語として抽出する特徴語抽出手段、
該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択手段、
該訳語を含む文又は語句の少なくともいずれかを、翻訳先言語で記述された複数の文章を含む翻訳先言語データベースから抽出し、当該訳語と又は語句の少なくともいずれかとの関係を自動獲得した生成規則に基づいて文字単位候補を生成する文字単位候補生成手段、
生成された全ての文字単位候補間で依存関係が成立しうる文字単位候補対を全ての文字単位候補について抽出することを繰り返し、異なる依存関係で構成された翻訳先テキスト候補を生成する翻訳先テキスト候補生成手段、
各翻訳先テキスト候補の評価値を算出する評価手段、
該評価値に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力手段
を備えたことを特徴とする機械翻訳装置。

【請求項2】
 
所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する機械翻訳装置であって、
翻訳元テキストを受理する受理手段、
該翻訳元テキストを形態素解析してその結果得られた各形態素から、単語列の主辞となる形態素のうち、品詞が動詞、形容詞、名詞、指示詞、副詞、接続詞、連体詞、感動詞のいずれかである語を特徴語として抽出する特徴語抽出手段、
該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択手段、
該訳語を含む文又は語句の少なくともいずれかを、翻訳先言語で記述された複数の文章を含む翻訳先言語データベースから抽出し、当該訳語と該文又は語句の少なくともいずれかとの関係を自動獲得した生成規則に基づいて文字単位候補を生成する文字単位候補生成手段、
生成された全ての文字単位候補間で依存関係が成立しうる文字単位候補対を全ての文字単位候補について抽出することを繰り返し、異なる依存関係で構成された翻訳先テキスト候補を生成する翻訳先テキスト候補生成手段、
各翻訳先テキスト候補の評価値を算出する評価手段、
該評価値に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力手段
を備えたことを特徴とする機械翻訳装置。

【請求項3】
 
前記機械翻訳装置において、
前記特徴語抽出手段で抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出手段を備え、
該依存関係情報を有する特徴語から生成された文字単位候補については、前記翻訳先テキスト候補生成手段において、該依存関係情報を用いて翻訳先テキスト候補を生成する
ことを特徴とする請求項1又は2に記載の機械翻訳装置。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2004023914thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close