TOP > 国内特許検索 > 訳語選択装置、及び翻訳装置

訳語選択装置、及び翻訳装置 コモンズ

国内特許コード P140010710
整理番号 01-148
掲載日 2014年7月3日
出願番号 特願2002-113422
公開番号 特開2003-308319
登録番号 特許第3752535号
出願日 平成14年4月16日(2002.4.16)
公開日 平成15年10月31日(2003.10.31)
登録日 平成17年12月22日(2005.12.22)
発明者
  • 内元 清貴
  • 関根 聡
  • 村田 真樹
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 訳語選択装置、及び翻訳装置 コモンズ
発明の概要 【課題】多量の対訳用例データを収集することなく、従来は適切な訳語選択或いは翻訳が困難であった慣用的な表現に対しても精度の高い訳語選択、並びに機械翻訳を行うことができるようにする。
【解決手段】入力テキストと対訳用例データとの文字列の類似性により、入力テキスト中の翻訳対象語に対応する訳語を出力する方法、又は翻訳対象語に基づいて学習モデルを生成し、そのうち学習データに対し最も精度の高い学習モデルを入力文に適用したうえで最高の確信度が得られたものに対応する訳語候補を出力する方法を、それぞれ単独で又は組み合わせて用いる。
従来技術、競合技術の概要



機械翻訳において、ある言語で記述された文、句、節、又は単語等の原テキストと、その原テキストを別の言語に翻訳した翻訳テキストとを対にした対訳データを格納したデータベースが使用されることがある。特に最近では、単語だけでなく、単語を含む文や句等の用例のデータベース(以下、「対訳コーパス」と称する)が使用されるようになってきている。現在では、新聞や辞書等を言語資源とした多種多様な対訳コーパスがインターネット等で公開され、利用に供されている。





機械翻訳では、訳語選択が重要な技術要素の一つとして考えられるが、対訳用例コーパスを用いた場合、単純には対訳データの量が多ければ多いほど用例の数や種類が多くなると考えられることから、単一の対訳コーパスのみを使用するのではなく、可能な限り多種類の対訳コーパス又は対訳データを収集し、それらを用いて機械翻訳を実行することが考えられている。この場合、翻訳対象となる原言語での入力テキストに基づいて収集された対訳コーパスを参照し、入力テキストと合致する或いは最も類似する用例を含む原テキストに対応する対訳テキストを翻訳結果として出力する、という用例ベースの訳語選択方法が最も単純な手法であると考えられる。この他にも、対訳コーパスに基づいて作成した学習データを学習モデルに適用し、単純な統計的に確からしい訳語を出力するという、学習ベースの訳語選択方法も考えられている。

産業上の利用分野



本発明は、ある言語で入力されたテキストを他の言語へ翻訳する際に使用される訳語選択装置、及び翻訳装置に関するものである。

特許請求の範囲 【請求項1】
第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
類似性評価部で出力した原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語を出力する訳語出力部と
を具備してなることを特徴とする訳語選択装置。

【請求項2】
類似性検出部が、入力テキストと抽出された原言語用例データに含まれる原言語用例とを文字単位で比較して求められる差異に基づき入力テキストと原言語用例との一致した文字列の割合、又は一致した部分が何カ所に分割されて一致しているかを示す分割数の少なくともいずれか一方を用いて計算される類似度を前記類似性として演算する類似度演算部を有している請求項1記載の訳語選択装置。

【請求項3】
用例抽出部が、抽出した原言語用例データに含まれる原言語用例に文末処理を施して処理済原言語用例を出力する原言語用例処理部を有するものであり、類似性検出部において前記類似度演算部が、入力テキストと処理済原言語用例との文字単位で比較して求められる差異の演算結果に基づいて、一致した文字列の当該処理済原言語用例の文字列に対する割合、又は一致した部分が何カ所に分割されて一致しているかを示す分割数の少なくともいずれか一方を類似度として演算する請求項2記載の訳語選択装置。

【請求項4】
訳語出力部が、類似性検出部の類似度演算部で演算し類似性評価部で評価した結果、類似度が最大となる原言語用例データが複数ある場合に、前記類似度演算部における演算の結果、入力テキストと一致した文字列の割合又は前記分割数が最大の原言語用例を含む対訳用例データにおける前記翻訳対象語に対応する訳語を出力する請求項3記載の訳語選択装置。

【請求項5】
入力受付部が、入力テキストを形態素解析により翻訳対象語を自動抽出する入力テキスト処理部を有している請求項1、2、3又は4記載の訳語選択装置。

【請求項6】
対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語を含むものであり、用例抽出部が、少なくとも前記翻訳対象語に該当する原言語見出し語を含む原言語用例データを対訳用例データ格納部から抽出するものである請求項1、2、3、4又は5記載の訳語選択装置。

【請求項7】
対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語とそれに対応する訳語に基づいて生成された目的言語見出し語とを有するものであり、用例抽出部が、前記翻訳対象語に該当する原言語見出し語を含む原言語用例データを少なくとも抽出するものであって、訳語出力部が、類似性評価部において出力された原言語用例データに含まれ且つ前記用例抽出部で抽出された原言語見出し語に対応する目的言語見出し語を出力する請求項1、2、3、4又は5記載の訳語選択装置。

【請求項8】
第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
学習モデル適用部で出力した訳語候補のうち、最も高い確信度が得られた訳語候補を選択して翻訳対象語に対応する訳語として出力する訳語出力部と
を具備してなることを特徴とする訳語選択装置。

【請求項9】
学習モデル生成部が、入力受付部で受け付けた入力テキスト中の翻訳対象語ごとにそれを含む原言語用例に対応する対訳用例データを前記対訳用例データ格納部から抽出し、その抽出された対訳用例データに基づいて学習モデルを生成するものである請求項8記載の訳語選択装置。

【請求項10】
学習モデル生成部が、学習データごとに対応して学習モデルを生成するものであり、入力受付部で受け付けた入力テキスト中の前記翻訳対象語ごとに前記学習データで精度が最高となる学習モデルを選択する学習モデル選択部をさらに含むものであり、学習モデル適用部が、前記学習モデル選択部で選択した学習モデルを入力テキスト中の翻訳対象語に適用するものである請求項8又は9記載の訳語選択装置。

【請求項11】
入力受付部が、入力テキストを形態素解析により翻訳対象語を自動抽出する入力テキスト処理部を有している請求項8、9又は10記載の訳語選択装置。

【請求項12】
対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語を含むものであり、学習モデル生成部が、少なくとも前記翻訳対象語に該当する原言語見出し語を含む原言語用例データを対訳用例データ格納部から抽出するものである請求項8、9、10又は11記載の訳語選択装置。

【請求項13】
第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
類似性評価部で出力する原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語、又は、学習モデル適用部で出力する訳語候補から、最適なものを選択して翻訳対象語に対応する訳語として出力する訳語出力部と
を具備してなることを特徴とする訳語選択装置。

【請求項14】
訳語出力部が、類似性評価部において所定の閾値以上の類似性が得られた対訳用例データの出力がある場合に、当該類似性評価部で出力した結果得られる翻訳対象語に対応する訳語を出力し、類似性評価部において所定の閾値以上の類似性が得られた対訳用例データの出力がない場合に、前記学習モデル適用部で出力した結果得られる翻訳対象語に対応する訳語を出力するものである請求項13記載の訳語選択装置。

【請求項15】
類似性評価部において所定の閾値以上の類似性が得られた対訳用例データの出力がない場合に、前記学習モデル生成部、学習モデル適用部及び訳語出力部を動作させるようにしている請求項13記載の訳語選択装置。

【請求項16】
用例抽出部が利用する対訳用例データ格納部と、学習モデル生成部が利用する対訳用例データ格納部とが、それぞれ異なる言語資源に基づいて作成された異なる対訳用例データ格納部である請求項13、14又は15記載の訳語選択装置。

【請求項17】
第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに基づいてその第2言語による翻訳文である対象テキストを出力するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の各翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
類似性評価部で出力した原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語を出力する訳語出力部と、
訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部と
を具備してなることを特徴とする翻訳装置。

【請求項18】
第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
学習モデル適用部で出力した訳語候補のうち、最も高い確信度が得られた訳語候補を選択して翻訳対象語に対応する訳語として出力する訳語出力部と、
訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部と
を具備してなることを特徴とする翻訳装置。

【請求項19】
第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
類似性評価部で出力する原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語、又は、学習モデル適用部で出力する訳語候補から、最適なものを選択して翻訳対象語に対応する訳語として出力する訳語出力部と、
訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部と
を具備してなることを特徴とする翻訳装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2002113422thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close