TOP > 国内特許検索 > 機械翻訳装置

機械翻訳装置 コモンズ

国内特許コード P140010745
整理番号 02-09
掲載日 2014年7月7日
出願番号 特願2004-023914
公開番号 特開2005-216127
登録番号 特許第3921543号
出願日 平成16年1月30日(2004.1.30)
公開日 平成17年8月11日(2005.8.11)
登録日 平成19年3月2日(2007.3.2)
発明者
  • 内元 清貴
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 機械翻訳装置 コモンズ
発明の概要 【課題】 翻訳元言語又は翻訳先言語に十分なコーパス等の環境が整っていない場合や、入力するテキストが不正確な場合にも、好適な翻訳先言語のテキストを出力可能な機械翻訳方法及び装置を提供すること。
【解決手段】 翻訳元言語のテキスト31を本発明による機械翻訳装置30に入力すると、まず特徴的単語抽出部50によって入力したテキスト中の特徴語33を抽出する。訳語選択部60では各特徴語33の最適な訳語34を選択する。さらにテキスト生成部70に複数の訳語34を入力することで、該訳語を含む最も自然な生成テキスト35を得ることができる。最後に出力部80から翻訳先言語のテキスト32を出力する。
【選択図】 図3
従来技術、競合技術の概要


従来の機械翻訳方法においては、例えば特許文献1に開示される機械翻訳の手法が知られている。該特許文献でも開示されているように従来の機械翻訳方法は、例えば日本語から英語への翻訳を行う場合に、日本語の解析を行って、文の意味構造を導出する。
この意味構造は木構造や意味ネットワークで表現できる。そして、生成された意味ネットワークを解析し、適切な訳語を選択して目的とする訳文を生成する処理を行っているものがある。



ここで、意味ネットワークは意味記号を付加したノードと、ノード間の関係情報を付加したアークとによって記述されており、各ノードには翻訳文を生成する際に必要な文生成規則が付加される。生成時には文生成規則に基づき、英語の単語とその文法属性とを検索し、次にアークの情報と整合する単語、品詞、文型をそれぞれ決定する処理を行う。



【特許文献1】
特公平8-33895号公報



また、近年、大量のコーパスが利用可能となり、自然な表層文を生成する目的にもコーパスが利用されるようになってきている。その典型例の1つが機械翻訳に用いられる言語モデルであり、例えば非特許文献1で開示されている。
ここで示される統計的機械翻訳では、原言語で書かれたテキストをS、目的言語で書かれたテキストをTとして、Sが与えられたときにTを生成する確率Pが最大になるようなテキストを最適な翻訳として出力する。
この時用いられるモデルとしては、単語や句を原言語から目的言語に置き換えるための翻訳モデルと、置き換えた単語や句を目的言語側で尤もらしい順序に並べ替えるための言語モデルがある。



【非特許文献1】
Brown,P.F., Cocke,J., Piera,S.A.D.,Pietra,V.J.D., Jelinek,F., Lalfferty,J.D., Mercer,R.L., and Roossin,P.S.(1990). "A Statistical Approach to MachineTranslation." Computationallingustics,16(2),79-85



このような従来の統計的機械翻訳の手法では、与えられた語の集合を並べ換えると自然な文を生成できるという仮定がある。つまり、自然な文を生成するための語の集合は翻訳モデルにより過不足なく生成されることが前提となっている。
しかし、この前提のためには大規模な対訳コーパスが必要であり、日本語などの比較的コーパスが整備された言語が原言語であっても、対象言語との対訳コーパスの状況、対象言語におけるコーパスの状況によっては、上記従来の手法では十分な翻訳精度の向上が望めない問題があった。



また、特に話し言葉や、文法的な誤り、記述上の誤りなど原言語の表現が不適切な場合に、これら従来の方法では正しい意味構造の解析や翻訳モデルの作用が不可能であり、全く誤った翻訳結果を出力してしまうことがある。

産業上の利用分野



本発明は機械翻訳装置に関する。特に、翻訳元言語のテキストを入力し、翻訳先言語のテキストを出力するまでの処理手法に係る技術である。

特許請求の範囲 【請求項1】
所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する機械翻訳装置であって、
翻訳元テキストを受理する受理手段、
該翻訳元テキストを形態素解析してその結果得られた各形態素を順に着目タームとし、翻訳元言語で記述された複数の文書を含む翻訳元言語文書データベースを用いて、該文書データベースの中から該着目タームが含まれる文書と、該文書データベースに含まれる全文書とのそれぞれにおける着目タームの分布間の距離を算出し、該距離が所定の閾値以上の着目タームを特徴的な意味を有する特徴語として抽出する特徴語抽出手段、
該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択手段、
該訳語を含む文又は語句の少なくともいずれかを、翻訳先言語で記述された複数の文章を含む翻訳先言語データベースから抽出し、当該訳語と又は語句の少なくともいずれかとの関係を自動獲得した生成規則に基づいて文字単位候補を生成する文字単位候補生成手段、
生成された全ての文字単位候補間で依存関係が成立しうる文字単位候補対を全ての文字単位候補について抽出することを繰り返し、異なる依存関係で構成された翻訳先テキスト候補を生成する翻訳先テキスト候補生成手段、
各翻訳先テキスト候補の評価値を算出する評価手段、
該評価値に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力手段
を備えたことを特徴とする機械翻訳装置。

【請求項2】
所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する機械翻訳装置であって、
翻訳元テキストを受理する受理手段、
該翻訳元テキストを形態素解析してその結果得られた各形態素から、単語列の主辞となる形態素のうち、品詞が動詞、形容詞、名詞、指示詞、副詞、接続詞、連体詞、感動詞のいずれかである語を特徴語として抽出する特徴語抽出手段、
該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択手段、
該訳語を含む文又は語句の少なくともいずれかを、翻訳先言語で記述された複数の文章を含む翻訳先言語データベースから抽出し、当該訳語と該文又は語句の少なくともいずれかとの関係を自動獲得した生成規則に基づいて文字単位候補を生成する文字単位候補生成手段、
生成された全ての文字単位候補間で依存関係が成立しうる文字単位候補対を全ての文字単位候補について抽出することを繰り返し、異なる依存関係で構成された翻訳先テキスト候補を生成する翻訳先テキスト候補生成手段、
各翻訳先テキスト候補の評価値を算出する評価手段、
該評価値に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力手段
を備えたことを特徴とする機械翻訳装置。

【請求項3】
前記機械翻訳装置において、
前記特徴語抽出手段で抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出手段を備え、
該依存関係情報を有する特徴語から生成された文字単位候補については、前記翻訳先テキスト候補生成手段において、該依存関係情報を用いて翻訳先テキスト候補を生成する
ことを特徴とする請求項1又は2に記載の機械翻訳装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2004023914thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close