TOP > 国内特許検索 > 自然文曖昧性解消装置、及び自然文曖昧性解消プログラム

自然文曖昧性解消装置、及び自然文曖昧性解消プログラム コモンズ

国内特許コード P140010733
整理番号 03-33
掲載日 2014年7月7日
出願番号 特願2003-132527
公開番号 特開2004-334729
登録番号 特許第3772214号
出願日 平成15年5月12日(2003.5.12)
公開日 平成16年11月25日(2004.11.25)
登録日 平成18年2月24日(2006.2.24)
発明者
  • 木田 敦子
  • 山本 英子
  • 桝山 享子
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 自然文曖昧性解消装置、及び自然文曖昧性解消プログラム コモンズ
発明の概要 【課題】日本語文における「係り結び」を形成する呼応ペアを蓄積したデータベースを利用することで、入力済の日本語自然文からなるテキストデータにおいて、真に正しいと推測される呼応関係を見出し、当該自然文の曖昧性を解消する。
【解決手段】入力済のテキストデータに基づく日本語自然文中において、複数の呼応関係が出現してその文章の意味が曖昧となった場合に、当該自然文中の呼要素と応要素との語間距離のうち、呼応ペアデータベースDB1に格納されている当該呼要素と当該応要素との平均的な語間距離に対応する呼応関係にある応要素を機械的に選出するようにした。
【選択図】図1
従来技術、競合技術の概要



中世以前の日本語には、係助詞と文末の活用形とが形態的な呼応関係を持つ「係り結び」の用法が存在したが、「係り結び」が消滅した現代の日本語の文章の場合、述語が文末に置かれるため、文の終末まで進まないとその文章の内容が確定しない。そのため、長文で複雑な内容の文章では、その内容が肯定的なのか否定的なのか、或いは疑問を表しているのかが文末まで読まないことには明らかにならない。すなわち、同一の自然文中に一つの「係り」となる語に対応する「結び」となる語が複数出現した場合、その文の意味を理解する上でどの「結び」語が真に「係り」語に対応しているかを的確に把握することが難しいといえる。ここで、現代日本語の文構造の研究において、現代語ではある種の副詞などが古語の係助詞と似た役割を果たしており、後続要素を予告しているとの示唆がなされている(例えば、非特許文献1参照)。例えば「たぶん……だろう」や「おそらく……だろう」などといった組み合わせは、呼応関係を形成する先行要素(呼要素)及び後続要素(応要素)のペアとして内省や直感である程度予測がつくと考えられると指摘されている(例えば、非特許文献2参照)。





【非特許文献1】

大野 晋,「係り結びの研究」,第1版,岩波書店,1993年1月12日,p350-351

【非特許文献2】

益岡 隆志,「モダリティの文法」,第1版,くろしお出版,1991年5月25日,p29-46

産業上の利用分野



本発明は、コンピュータに入力済の日本語自然文からなるテキストデータについて、その自然文が表す意味の曖昧性を解消する装置及びそのプログラムに関するものである。

特許請求の範囲 【請求項1】
日本語の自然文中において共起する2つの語のうち係り結びを形成する呼要素と応要素とを対にした呼応ペアの集合を、当該呼応ペアを含む元の自然文中における呼要素と応要素との平均語間距離を付加した状態で格納してある呼応ペアデータベースを検索することによって、入力された日本語自然文テキストにおける呼応関係の曖昧性を解消するコンピュータからなるものであって、
日本語テキストデータの入力を受け付ける入力受付手段と、
前記入力受付手段で受け付けた日本語テキストデータについて形態素解析を実行する形態素解析手段と、
前記形態素解析手段で形態素解析された各形態素に先頭から順に語番号を付与する語番号付与手段と、
前記形態素解析手段で形態素解析された形態素から所定の呼要素を抽出する呼要素抽出手段と、
前記呼応ペアデータベースから、前記呼要素抽出手段で抽出した呼要素に対応する応要素を検索し、その検索結果に基づいて形態素解析手段で形態素解析された形態素のうち応要素に該当するものを抽出する応要素抽出手段と、
前記呼要素抽出手段で抽出した呼要素と前記応要素抽出手段で抽出した全ての応要素との語間距離を前記語番号付与手段で付与された語番号に基づいて算出する語間距離演算手段と、
前記語間距離演算手段による全ての演算結果を平均して得られる平均語間距離と所定の関係にある語間距離を有する一の応要素を前記呼応ペアデータベースから特定する応要素特定手段とを具備していることを特徴とする自然文曖昧性解消装置。

【請求項2】
前記入力受付手段で受け付けた日本語テキストデータを出力する出力手段と、
前記呼要素抽出手段で抽出した呼要素と前記応要素抽出手段で抽出した応要素との関連性を示す関連性情報を出力する関連性情報出力手段と、
前記応要素特定手段で特定した応要素を明示する応要素明示情報を出力する応要素明示手段とをさらに具備している請求項1記載の自然文曖昧性解消装置。

【請求項3】
前記出力手段、関連性情報出力手段、応要素明示手段が、それぞれディスプレイ等の表示装置に日本語テキストデータ、関連性情報、応要素明示情報を表示出力するものである請求項2記載の自然文曖昧性解消装置。

【請求項4】
日本語の自然文中において共起する2つの語のうち係り結びを形成する呼要素と応要素とを対にした呼応ペアの集合を、当該呼応ペアを含む元の自然文中における呼要素と応要素との平均語間距離を付加した状態で格納してある呼応ペアデータベースを検索することによって、入力された日本語自然文テキストにおける呼応関係の曖昧性を解消するコンピュータを、
日本語テキストデータの入力を受け付ける入力受付手段と、
前記入力受付手段で受け付けた日本語テキストデータについて形態素解析を実行する形態素解析手段と、
前記形態素解析手段で形態素解析された各形態素に先頭から順に語番号を付与する語番号付与手段と、
前記形態素解析手段で形態素解析された形態素から所定の呼要素を抽出する呼要素抽出手段と、
前記呼応ペアデータベースから、前記呼要素抽出手段で抽出した呼要素に対応する応要素を検索し、その検索結果に基づいて形態素解析手段で形態素解析された形態素のうち応要素に該当するものを抽出する応要素抽出手段と、
前記呼要素抽出手段で抽出した呼要素と前記応要素抽出手段で抽出した全ての応要素との語間距離を前記語番号付与手段で付与された語番号に基づいて算出する語間距離演算手段と、
前記語間距離演算手段による全ての演算結果を平均して得られる平均語間距離と所定の関係にある語間距離を有する一の応要素を前記呼応ペアデータベースから特定する応要素特定手段とを具備する自然文曖昧性解消装置として機能させることを特徴とする自然文曖昧性解消プログラム。

【請求項5】
前記コンピュータをさらに、
前記入力受付手段で受け付けた日本語テキストデータを出力する出力手段と、
前記呼要素抽出手段で抽出した呼要素と前記応要素抽出手段で抽出した応要素との関連性を示す関連性情報を出力する関連性情報出力手段と、
前記応要素特定手段で特定した応要素を明示する応要素明示情報を出力する応要素明示手段と具備する自然文曖昧性解消装置として機能させる請求項4記載の自然文曖昧性解消プログラム。

【請求項6】
前記出力手段、関連性情報出力手段、応要素明示手段を、それぞれディスプレイ等の表示装置に日本語テキストデータ、関連性情報、応要素明示情報を表示出力するように機能させる請求項5記載の自然文曖昧性解消プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2003132527thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close