TOP > 国内特許検索 > 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム

複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム コモンズ

国内特許コード P140010711
整理番号 02-89
掲載日 2014年7月3日
出願番号 特願2002-232922
公開番号 特開2003-141114
登録番号 特許第4304268号
出願日 平成14年8月9日(2002.8.9)
公開日 平成15年5月16日(2003.5.16)
登録日 平成21年5月15日(2009.5.15)
優先権データ
  • 特願2001-243118 (2001.8.10) JP
発明者
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム コモンズ
発明の概要 【課題】 主要言語間のみならず主要言語・非主要言語間における機械翻訳に用いることができる第3言語テキストの生成技術を創出すること。同時に、従来よりも高精度にテキストを生成することのできる生成技術を提供する。
【解決手段】 複数の対訳関係を有する言語テキストを入力し、両言語の対訳コーパスを用いることで、従来の単言語入力よりも高精度な第3言語テキストを生成する技術を実現する。入力後、解析過程、変換過程、生成過程の各過程を経て、目標言語文書を出力する。目標言語文書は、固有情報を自動獲得可能なため、大規模なコーパス等を必要としないことに特徴を有する。
従来技術、競合技術の概要



近年、多くの情報がコンピュータ上に記録され、特にインターネットの普及に伴って、そのようなデジタルデータにアクセスする手段を持つ者と持たない者の格差、いわゆるデジタルデバイドの問題が大きくなっている。

それに加えて、インターネット上に記録された多くの情報は、英語等の主要言語によるものが大半であり、それらの言語を解する者と解さない者との格差も大きな問題である。





これまで、これら言語障壁によるデジタルデバイドの解消策として機械翻訳の研究は各所で行われ、内外の多くの企業や研究所が取り組んでいる。

例えば、入力言語と出力言語の対訳を用いて、その言語間の翻訳に必要とされる知識を獲得する、コーパスを用いた機械翻訳の研究がおこなわれているが、これらは大規模な対訳データが存在する言語間でしか実現できない上に、知識を獲得するだけであるため、従来よりも高精度な機械翻訳には寄与しても、主要言語にしか用いることができない。





このように従来研究されている技術は、主要言語間でのみ用いることができる技術が大半であり、言語障壁によるデジタルデバイドの解消には寄与しないと言わざるを得ない。インターネットをはじめとする情報技術の進展により、このような格差は急速に広がりつつあり、格差が致命的になる前に対処することが緊急の課題である。しかしながら、発展途上国には言語資源と技術を開発するコストを負担する能力は乏しく、情報産業が収益の伴わない高額の投資をするのは難しい。また、先進国においても、多くの非主要言語に個別に対応するだけの負担は不可能である。

これらを解決するためには、低コストで非主要言語にも対応可能な言語処理手法の開発が求められているが、従来そのような技術開発は遅れている。





さらに、現在の機械翻訳の精度は、広く実用に供する域には達していない。ひとつの文を見ただけでは十分に意味が取れず、前後の文脈を見てはじめて意味がわかるような文が存在するが、現在の自然言語処理技術は、このような文脈を扱う能力は不充分である。

産業上の利用分野



本発明は、機械翻訳等における目標言語のテキストを高精度に生成する技術に関するものである。より詳しくは、複数の言語を入力し、それらの言語解析結果から最も確率の高い解析結果に統一することで目標言語テキスト生成の高精度化を図る技術である。

特許請求の範囲 【請求項1】
コンピュータにおける言語処理のうち、複数の言語テキストを用いて新たな第3の言語テキストを生成する装置におけるアルゴリズムであって、該アルゴリズムが、
該装置の入力手段により、異なる言語によって記述され、翻訳元となる第1の言語と、該第1の言語と対訳関係にある少なくとも第2の言語で記述された、2つ以上の対訳テキストを入力する入力ステップ、
該装置の解析手段により、2つ以上の対訳テキストについて、係り受け解析及び意味解析を含む言語解析を行い、対訳テキスト中の文毎に最も確率の高い解析結果をその文の解析結果とし、少なくとも依存構造及び意味表現に係る言語情報を獲得する解析ステップ、
該装置の生成手段により、第3言語によるテキストを生成する生成ステップ
の各ステップを含む構成であって、
生成ステップにおいて生成手段が、
解析ステップにおいて獲得された言語情報、又は、
解析ステップの後、該解析結果に基づき、第3言語固有の変換知識を具備した変換手段により言語変換を行う変換ステップを設け、該変換ステップにおける変換結果、
の少なくともいずれかを用いて第3言語によるテキストを生成する
ことを特徴とする第3言語テキスト生成アルゴリズム。

【請求項2】
前記解析ステップが、
前記解析手段の対訳関係関連づけ部により、各対訳テキストを構成する語句・文が、いかなる対訳関係を有するかについて関連づけを行う関連づけ過程、
前記解析手段の解析モジュール部により、少なくとも前記第1の言語のテキストにつき解析する解析過程、
前記解析手段の解析結果統一部により、関連づけの結果、第1の言語のテキストと対訳関係にある少なくとも第2の言語のテキスト中の部分を該解析モジュール部により解析し、各言語の解析結果から最も確率の高い解析結果をその部分の解析結果とする解析結果統一過程
の各過程を含む
請求項1に記載の第3言語テキスト生成アルゴリズム。

【請求項3】
前記解析・変換・生成ステップの少なくともいずれかにおいて、
情報記憶手段に、
各言語に関する辞書情報又は文法情報の少なくともいずれかを含んで構成される規則的情報と、
コーパス等の実データからの学習結果による経験的情報と
を予め記憶しておき、それらを用いる請求項1又は2に記載の第3言語テキスト生成アルゴリズム。

【請求項4】
前記生成ステップにおいて、生成手段が、
第3言語の構文構造情報、又は第3言語の単語用法情報の少なくともいずれかについての情報が、該言語の既存のコーパスから一部又は全部について自動獲得して形成され、
該自動獲得された第3言語の固有情報に基づき第3言語によるテキストを生成する
請求項1ないし3に記載の第3言語テキスト生成アルゴリズム。

【請求項5】
言語処理のうち、複数の言語を用いて新たな第3の言語テキストを生成する装置であって、該装置が、
異なる言語によって記述され、翻訳元となる第1の言語と、該第1の言語と対訳関係にある少なくとも第2の言語で記述された、2つ以上の対訳テキストを入力する入力手段、
2つ以上の対訳テキストについて、係り受け解析及び意味解析を含む言語解析を行い、対訳テキスト中の文毎に最も確率の高い解析結果をその文の解析結果とし、少なくとも依存構造及び意味表現に係る言語情報を獲得する解析手段、
第3言語によるテキストを生成する生成手段、
該生成手段によって生成された第3言語テキストを出力可能な出力手段
の各手段を備える構成であって、
生成手段が、
解析手段において獲得された言語情報、又は、
解析手段の解析結果に基づき、第3言語固有の変換知識を備えて言語変換を行う変換手段を備え、該変換手段における変換結果、
の少なくともいずれかを用いて第3言語によるテキストを生成する
ことを特徴とする第3言語テキスト生成装置。

【請求項6】
前記解析手段が、
各対訳テキストを構成する語句・文が、いかなる対訳関係を有するかについて関連づけを行う対訳関係関連づけ部、
少なくとも前記第1の言語のテキストを解析する、解析モジュール部、
該関連づけの結果、第1の言語のテキストと対訳関係にある少なくとも第2の言語のテキスト中の部分を予め用意された解析モジュールを用いて解析し、各言語の解析結果から最も確率の高い解析結果をその部分の解析結果とする解析結果統一部
を備える請求項5に記載の第3言語テキスト生成装置。

【請求項7】
前記第3言語テキスト生成装置が、
各言語に関する辞書情報又は文法情報の少なくともいずれかを含んで構成される規則的情報と、
コーパス等の実データからの学習結果による経験的情報と
を各々記憶する情報記憶手段を備えると共に、
前記解析手段・変換手段・生成手段の少なくともいずれかが、
該情報記憶手段によって記憶された各情報に基づいて解析処理を行う
請求項5又は6に記載の第3言語テキスト生成装置。

【請求項8】
前記第3言語テキスト生成装置が、
第3言語の構文構造情報、又は第3言語の単語用法情報の少なくともいずれかについての情報を、該言語の既存のコーパスから一部又は全部について自動獲得する第3言語固有情報獲得手段
又は、
予め自動獲得された第3言語固有情報を保持可能な第3言語固有情報記憶手段
の少なくともいずれかの手段を有し、
前記生成手段が、
該第3言語固有情報に基づき第3言語テキストを生成する
請求項5ないし7に記載の第3言語テキスト生成装置。

【請求項9】
前記第3言語テキスト生成装置における入力手段が、
紙片、書籍等の文書を電磁的記録に変換する文書取込変換手段によって変換作成されたコンピュータデータ、又は、
ハードディスク、光学的記憶装置等の電磁的記録装置から読み出されるコンピュータデータ、又は、
インターネット等のネットワーク上の電磁的記憶装置から取得可能なコンピュータデータ
の少なくともいずれかのコンピュータデータを該装置に入力可能である
請求項5ないし8に記載の第3言語テキスト生成装置。

【請求項10】
コンピュータにおける言語処理のうち、複数の言語テキストを用いて新たな第3の言語テキストを生成するプログラムであって、該プログラムが、
異なる言語によって記述され、翻訳元となる第1の言語と、該第1の言語と対訳関係にある少なくとも第2の言語で記述された、2つ以上の対訳テキストをコンピュータ上の記憶装置又は入力装置から取得する入力部、
2つ以上の対訳テキストについて、係り受け解析及び意味解析を含む言語解析を行い、対訳テキスト中の文毎に最も確率の高い解析結果をその文の解析結果とし、少なくとも依存構造及び意味表現に係る言語情報を、コンピュータ上の演算装置及び記憶装置を用いた演算処理により獲得する解析処理部、
第3言語によるテキストをコンピュータ上の演算装置及び記憶装置を用いた演算処理により生成する生成処理部
該生成処理部によって生成された第3言語テキストをコンピュータ上の記憶装置又は出力装置により出力する出力部
の各部を含む構成であって、
生成処理部が、
解析処理部において獲得された言語情報、又は、
解析処理部の解析結果に基づき、第3言語固有の変換知識を備えて言語変換を行う変換処理部を設け、該変換処理部における変換結果、
の少なくともいずれかを用いて第3言語によるテキストを生成する
ことを特徴とする第3言語テキスト生成プログラム。

【請求項11】
前記解析処理部が、
各対訳テキストを構成する語句・文が、いかなる対訳関係を有するかについて関連づけを行う対訳関係関連づけルーチン、
少なくとも前記第1の言語のテキストを解析する、解析ルーチン、
該関連づけの結果、第1の言語のテキストと対訳関係にある少なくとも第2の言語のテキスト中の部分を解析ルーチンを用いて解析し、各言語の解析結果から最も確率の高い解析結果をその部分の解析結果とする解析結果統一ルーチン
の各ルーチンを含む
請求項10に記載の第3言語テキスト生成プログラム。

【請求項12】
前記解析処理部・変換処理部・生成処理部の少なくともいずれかにおいて、
各言語に関する辞書情報又は文法情報の少なくともいずれかを含んで構成される規則的情報と、
コーパス等の実データからの学習結果による経験的情報と
を用いる請求項10又は11に記載の第3言語テキスト生成プログラム。

【請求項13】
前記第3言語テキスト生成プログラムが、
第3言語の構文構造情報、又は第3言語の単語用法情報の少なくともいずれかについての情報を、該言語の既存のコーパスから一部又は全部について自動獲得した第3言語固有情報を読み出す第3言語固有情報読み出しルーチンを備え、
前記生成処理部が、
該第3言語固有情報に基づき第3言語テキストを生成する
請求項10ないし12に記載の第3言語テキスト生成プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2002232922thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close