Top > Search of Japanese Patents > TEXT GENERATION METHOD AND TEXT GENERATION DEVICE OF OTHER LANGUAGE

TEXT GENERATION METHOD AND TEXT GENERATION DEVICE OF OTHER LANGUAGE commons

Patent code P140010744
File No. 03-49
Posted date Jul 7, 2014
Application number P2004-023913
Publication number P2005-216126A
Patent number P3790825
Date of filing Jan 30, 2004
Date of publication of application Aug 11, 2005
Date of registration Apr 14, 2006
Inventor
  • (In Japanese)内元 清貴
  • (In Japanese)井佐原 均
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title TEXT GENERATION METHOD AND TEXT GENERATION DEVICE OF OTHER LANGUAGE commons
Abstract PROBLEM TO BE SOLVED: To provide a text generation method and device realizing generation of a very natural text of the other language by giving a keyword by a user.
SOLUTION: By inputting a word of an original language as a keyword 31, a parallel translation text is extracted 50 from a parallel translation corpus database between the original language and the other language, and from the partial correspondence information of the parallel translation text, a corresponding word group table composed of respective other language corresponding words of the other language corresponding to original language corresponding words including each keyword of the original language is stored 60. A text generation means 70 assumes the modification relation each between other language corresponding words included in the corresponding word group table to generate text candidates 32 of the other language.
Outline of related art and contending technology (In Japanese)

計算機を用いてテキストを解析、生成するための方法は従来から数多く提案されている。それらを大別すると、人間が作成した規則に基づく方法と統計的学習に基づく方法に分けることができる。前者の方法では、多様な知識を利用することで処理精度を向上させようとしてきた。一方、後者の方法では、単純な知識を大量に利用することで処理精度を向上させようとしてきた。
テキストを精度良く解析、生成するためには、文内、文間に現われる表層的情報から得られる様々な知識をはじめとして、辞書的な知識、言語学的な知見など、できるだけ多様な知識を利用するのが良いと考えられる。
しかし、前者の方法では、多様な知識を扱うためには規則を精緻化しなくてはならず、必然的に規則が競合しやすくなり、規則同士の優先順位を決めるのが困難になる。
一方、後者の方法では、多様な知識を利用しようとすると学習データに過学習する傾向があるため、過学習を避けるためにさらに多くの学習データが必要となることが多い。後者の方法で多様な知識を利用することができればより良い精度が期待できる。しかし、後者の方法では、これまで知識を充実させるという方向の研究はほとんどなされてこなかった。

本件発明者らは、後者の統計的学習に基づく方法を採用し、テキスト解析・生成のための新しいモデルを提案しており、例えば特許文献1において開示している。
このモデルは、主に最大エントロピー原理に基づくもので、過学習の問題を避けつつ、多様な知識を効率良く扱うことができる。実験により、既存の統計的方法に比べて高い精度が得られることを示すとともに、学習データから得られる知識や、辞書的な知識、言語学的な知見などの多様な知識を効率的に利用する方法、および、テキスト解析・生成に有効な知識とはどのようなものであるかが明らかになっている。

【特許文献1】
特許公開2002-334076号公報

一方、具体的なテキスト生成の処理方法としては、例えば本件出願人による特許文献2に開示されるテキスト生成のシステムがある。該システムでは、キーワードを入力してそれを含むテキストをデータベースから抽出し、該テキストを形態素解析・構文解析した後、もとのキーワードをテキストに組み合わせることでテキストの生成を行うように処理している。
また、特許文献3に開示されたシステムでは、キーワードとなる単語を入力して、文字単位候補を生成し、文字単位候補の係り受け関係を仮定してテキスト候補を生成するテキスト生成方法を開示している。本方法によると、キーワードが十分でない場合にも自然なテキストを生成できる長所がある。

【特許文献2】
特許公開2003-196280号公報
【特許文献3】
特許公開2003-271592号公報

これらはいずれも、例えば日本語のキーワードから日本語のテキストを生成するものであって、異なる言語のテキストを生成する手法ではない。すなわち従来の技術では単言語のコーパスを用いて、単言語のキーワードからテキスト生成する方法が提供されているだけであり、上記特許文献3の方法を他言語に適用する方法は実現できていなかった。

また、入力する言語と出力する言語が異なる言語処理としては機械翻訳が知られている。機械翻訳の一般的な手法は、翻訳元言語のテキストを入力し、それを解析、その解析結果から翻訳先言語を生成する。
しかし、入力時に必ずしもテキストを入力せず、適当なキーワードを与えることで、より自然なテキストを出力できるのであれば、使用者にとって他者とのコミュニケーションをより図りやすくなることも考えられる。

例えば近年、ネットワークを通じて世界中の人々が容易に情報を交換できるようになったが、依然として言語バリアが存在しており、異文化間のコミュニケーションは容易ではない。これまでに、機械翻訳の技術は向上してきたが、商用の機械翻訳システムを用いてもなお異文化間のコミュニケーションは難しいということが指摘されている。
そこで、異文化間コミュニケーションにおける言語バリアを克服するために、システムに対する人間の協調をうまく引き出し、異文化間コミュニケーションを可能とするような他言語のテキスト生成方法が求められている。

Field of industrial application (In Japanese)

本発明は自然言語処理の装置に関する。特に、原言語の単数又は複数のキーワード語句から他言語のテキストを生成する手法に関わる。

Scope of claims (In Japanese)
【請求項1】
 
原言語の単語をキーワードとして入力することにより、原言語とは異なる他言語のテキストを生成する他言語テキスト生成装置であって、
単数又は複数の該原言語のキーワード語句を受理する受理手段と、
対訳文中の語句間対訳関係に係る部分対応情報を含む原言語・他言語間の対訳コーパスデータベースと、
該キーワード語句を含む対訳文を、該対訳コーパスデータベースから抽出する対訳文抽出手段と、
該対訳文の部分対応情報から、各原言語のキーワード語句を含む原言語対応語句に対応する他言語の各他言語対応語句で構成する対応語句群テーブルを記憶可能な対応語句記憶手段と、
該対応語句群テーブルに含まれる全ての他言語対応語句間で係り受けが成立しうる語句対を全ての他言語対応語句について抽出することを繰り返し、異なる係り受け関係で構成された他言語のテキスト候補を生成するテキスト候補生成手段と、
少なくとも1つのテキスト候補を出力する出力手段と
を少なくとも備えたことを特徴とする他言語テキスト生成装置。

【請求項2】
 
前記他言語テキスト生成装置が、
受理したキーワード語句に対して前記対訳文抽出手段により複数の対訳文が抽出され、対訳コーパスデータベースに含まれる部分対応情報を参照して該部分対応情報で定義されている当該キーワード語句を含む原言語対応語句が複数の種類存在するか否か判定し、複数の種類存在する場合には、使用者に該各原言語対応語句を提示する原言語語句候補提示手段を備えると共に、
前記受理手段により、使用者が提示された原言語対応語句の1個を選択した結果を受理可能であり、使用者が選択した場合には、前記対応語句記憶手段がその原言語対応語句に対応する他言語対応語句を対応語句群記憶テーブルに記憶する
請求項1に記載の他言語テキスト生成装置。

【請求項3】
 
前記他言語テキスト生成装置が、
受理手段1個のキーワード語句を受理する毎に、前記対訳文抽出手段及び、前記対応語句記憶手段が作用する構成において、
抽出された対訳文中において該キーワード語句と共起する共起語句を抽出し共起語句テーブルに記憶する共起語句抽出手段と、
該共起語句テーブル中の共起語句を使用者に選択可能に提示する共起語句提示手段と
を備え、
受理手段使用者が共起語句を選択した場合には、該共起語句を新たなキーワード語句として受理し、
全てのキーワード語句の受理が終了した後に、前記テキスト候補生成手段が作用する
ことを特徴とする請求項1又は2に記載の他言語テキスト生成装置。

【請求項4】
 
前記他言語テキスト生成装置において、
前記受理手段が受理したキーワード語句について、該キーワード語句を形態素解析し、解析された各形態素をあらかじめ記憶手段に格納した類語辞書を参照して類語に置換するキーワード整形手段を備え、対訳文抽出手段において処理を行う
ことを特徴とする請求項1ないし3に記載の他言語テキスト生成装置。

【請求項5】
 
前記他言語テキスト生成装置において、
対訳コーパスデータベースに、原言語と、複数の他言語との間の対訳文中の語句間対訳関係に係る部分対応情報を含み、
対訳文抽出手段と、対応語句記憶手段と、テキスト候補生成手段において、該原言語と、各他言語との間についてそれぞれ処理を行うと共に、
出力手段から、複数の言語のテキスト候補を出力する
ことを特徴とする請求項1ないし4に記載の他言語テキスト生成装置。

【請求項6】
 
前記他言語テキスト生成装置において、
前記テキスト候補生成手段が、対応語句群テーブルに含まれる全ての他言語対応語句間で係り受けが成立しうる語句対を全ての他言語対応語句について抽出することを繰り返し、異なる係り受け関係で構成された他言語のテキスト候補を生成すると共に、
該対応語句群テーブルに含まれる全ての原言語対応語句間で係り受けが成立しうる語句対を全ての原言語対応語句について抽出することを繰り返し、異なる係り受け関係で構成された原言語のテキスト候補を生成する原言語テキスト候補生成手段を備え、
出力手段から、少なくとも1組の原言語及び他言語の対訳テキスト候補を共に出力する
ことを特徴とする請求項1ないし5に記載の他言語テキスト生成装置。

【請求項7】
 
前記他言語テキスト生成装置において、
前記テキスト候補に対して該テキスト候補を構成する各文字列について該各文字列が形態素である確率値を求める形態素モデルを用い、該テキスト候補における確率値の総積、又は
前記テキスト候補に対して該テキスト候補を構成する各単語列に対する係り受けの順序付き集合が得られる確率値を求める係り受けモデルを用い、該テキスト候補における確率値の総積
の少なくともいずれかを求める評価手段を備えた
ことを特徴とする請求項1ないし6に記載の他言語テキスト生成装置。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2004023913thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close