TOP > 国内特許検索 > テキスト生成方法及びテキスト生成装置

テキスト生成方法及びテキスト生成装置 コモンズ

国内特許コード P140010709
整理番号 02-05
掲載日 2014年7月3日
出願番号 特願2002-074270
公開番号 特開2003-271592
登録番号 特許第4085156号
出願日 平成14年3月18日(2002.3.18)
公開日 平成15年9月26日(2003.9.26)
登録日 平成20年2月29日(2008.2.29)
発明者
  • 内元 清貴
  • 関根 聡
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 テキスト生成方法及びテキスト生成装置 コモンズ
発明の概要 【課題】 入力するキーワードが十分でない場合にも、有意なテキストを生成するテキストの生成方法・生成装置を提供すること。
【解決手段】 キーワード2をテキスト生成装置1に入力し、文節生成規則獲得部4ではコーパス8から文節生成規則9を獲得し、文節候補生成部5でキーワード2から文節候補を生成する。文節候補に係り受け関係を仮定してテキスト候補生成部6でテキスト候補を生成し、評価部7で評価付けし、評価に従ってテキスト3を出力する。
従来技術、競合技術の概要



テキスト生成は機械翻訳、要約、対話システムなど自然言語処理の様々な応用に利用される重要な要素技術の一つである。近年、大量のコーパスが利用可能となり、自然な表層文を生成する目的にもコーパスが利用されるようになってきた。その典型例の一つが原言語から目的言語への機械翻訳に用いられる言語モデルである。





例えば、本件出願人らが特願2001-395618号で開示したテキスト生成のシステムでは、置き換えた単語や句を目的言語側で尤もらしい順序に並び替え、目的言語を生成する。言語モデルの入力は、一般に語の集合であり、言語モデルに要求されるのは、基本的にそれらの語の並べ換えである。

このような従来のシステムでは、与えられた語の集合を並べ換えると自然な文を生成できるという仮定がある。つまり、自然な文を生成するための語の集合は翻訳モデルにより過不足なく生成されることが前提となっている。





しかし、この前提のためには大規模な対訳コーパスが必要であり、日本語などの比較的コーパスが整備された言語が原言語であっても、対象言語との対訳コーパスの状況、対象言語におけるコーパスの状況によっては、上記従来の手法では十分なテキスト生成が行えない場合があった。

また、上記開示でもある程度の語句の補完は行うが、補助的な補完を行うのみで、効率的に関連する語句を補完することはできなかった。





この問題は機械翻訳に限らず、一般的にテキスト生成において生じる問題であり、原言語テキストが完全なものでなく、誤りのあるOCR 認識結果や音声認識結果などの場合には同様に高精度なテキスト生成ができない問題があった。

産業上の利用分野



本発明は自然言語処理の方法及び装置に関する。特に、いくつかのキーワードからテキストを生成する手法に関わる。

特許請求の範囲 【請求項1】
所定の言語の文又は文章のテキストを生成するテキスト生成装置であって、
複数のキーワードとなる単語を入力する入力手段と、
キーワードから文節や句の候補(以下、文節等候補と呼ぶ。)を生成する文節等候補生成手段と、
係り受けの方向についての修飾条件、係り受け関係が交差するか否かについての交差条件、及び、係り受け要素に対する受け要素の個数についての対応条件からなる3つの係り受け条件に従った係り受け関係を仮定してテキスト候補を生成するテキスト候補生成手段と、
該テキスト候補を評価付けする評価手段と、
評価付けされた少なくとも1つのテキスト候補を出力する出力手段と共に、
入力手段で入力されたキーワードを含む文・語句を、データベースから抽出する抽出手段と、
抽出された文・語句を形態素解析及び/又は構文解析を行い、該キーワードを含む主辞形態素及び、それに連続する任意の数の形態素とから成る形態素集合を抽出し、該キーワードと該形態素集合との対応を文節等候補の生成規則として自動獲得する生成規則獲得手段と
を少なくとも備え、
文節等候補生成手段においては、少なくとも1つの該キーワードの前又は後に、該キーワードに関連した文字列を付加して文節等候補を生成し、他の全ての該キーワードについても同様に文字列を付加し、或いは付加せずに文節等候補を生成する処理か、又はキーワードから該生成規則を用いて文節等候補を生成する処理かのいずれかの処理を行い、
テキスト候補生成手段においては、該文節等候補から係り要素と受け要素の組合せを生成して該組合せ数に相当するテキスト候補を生成する
ことを特徴とするテキスト生成装置。

【請求項2】
前記入力手段において、
入力された単語と係り受け関係を有する単語を当該言語のデータベースから抽出し、その単語を新たなキーワードとして入力する
請求項1に記載のテキスト生成装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2002074270thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close