TOP > 国内特許検索 > 呼応ペアデータベース生成支援装置、及び呼応ペアデータベース生成支援プログラム

呼応ペアデータベース生成支援装置、及び呼応ペアデータベース生成支援プログラム コモンズ

国内特許コード P140010731
整理番号 03-32
掲載日 2014年7月7日
出願番号 特願2003-132528
公開番号 特開2004-334730
登録番号 特許第3878998号
出願日 平成15年5月12日(2003.5.12)
公開日 平成16年11月25日(2004.11.25)
登録日 平成18年11月17日(2006.11.17)
発明者
  • 木田 敦子
  • 山本 英子
  • 桝山 享子
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 呼応ペアデータベース生成支援装置、及び呼応ペアデータベース生成支援プログラム コモンズ
発明の概要 【課題】現代日本語文における「係り結び」に関する研究の基礎データとなり、構文解析プログラムなどの応用分野にも適用することができる呼応ペアデータベースを自動生成できるようにする。
【解決手段】コンピュータが、原文データベースDB1に格納された原文データについて形態素解析を含む前処理を実行することによって基礎データの集合である基礎データベースDB2を生成し、呼要素となり得る所定の対象語に基づき基礎データベースDB2を検索して当該対象語と共起する語を含む基礎データについて補完類似度を演算し、その演算結果から所定以上のスコアを示した基礎データから対象語とその応要素とを対にした共起ペアを作成し、その共起ペアの原文データでの数を考慮して共起ペアを呼応ペア候補として選択し、呼応ペア候補に基づいて、呼応ペアの集合として呼応ペアデータベースDB3を生成するようにした。
【選択図】図1
従来技術、競合技術の概要



中世以前の日本語には、係助詞と文末の活用形とが形態的な呼応関係を持つ「係り結び」の用法が存在したが、「係り結び」が消滅した現代の日本語の文章の場合、述語が文末に置かれるため、文の終末まで進まないとその文章の内容が確定しない。そのため、長文で複雑な内容の文章では、その内容が肯定的なのか否定的なのか、或いは疑問を表しているのかが文末まで読まないことには明らかにならない。ここで、現代日本語の文構造の研究において、現代語ではある種の副詞などが古語の係助詞と似た役割を果たしており、後続要素を予告しているとの示唆がなされている(例えば、非特許文献1参照)。例えば「決して……ない」や「たぶん……だろう」や「おそらく……だろう」などといった組み合わせは、呼応関係を形成する先行要素(呼要素)及び後続要素(応要素)のペアとして内省や直感である程度予測がつくと考えられると指摘されている(例えば、非特許文献2参照)。





【非特許文献1】

大野 晋,「係り結びの研究」,第1版,岩波書店,1993年1月12日,p350-351

【非特許文献2】

益岡 隆志,「モダリティの文法」,第1版,くろしお出版,1991年5月25日,p29-46

産業上の利用分野



本発明は、日本語文において「係り」と「結び」を形成する「呼応ペア」となる一対の語に係るデータベースを生成するための装置及びプログラムに関するものである。

特許請求の範囲 【請求項1】
日本語の自然文からなる原文データの集合である原文データベースを検索することによって、同一文中において共起する2つの語のうち係り結びを形成する呼要素と応要素とを対にした呼応ペアの集合である呼応ペアデータベースを自動的に生成するためのコンピュータからなるものであって、
原文データベースに格納された原文データについてそれぞれ形態素解析を含む前処理を実行することによって、前記形態素解析の結果から所定の品詞に該当する語を削除し更にその削除後の残余の語を所定の語順で並べ替えて各語に品詞情報を付したデータである基礎データを生成するとともに、この基礎データの集合である基礎データベースを生成する基礎データベース生成手段と、
呼要素となり得る所定の対象語に基づき前記基礎データベースを検索して当該対象語と共起する語を含む基礎データについて、当該対象語及び該対象語と共起する語の2つの語に対する二値パターンをそれぞれ二値n次元のベクトルとした場合に一方のベクトルが他方のベクトルにどれだけ類似しているかを表す補完類似度を演算する補完類似度演算手段と、
前記補完類似度演算手段による演算結果から所定以上のスコアを示した基礎データから対象語とその応要素とを対にした共起ペアを作成する共起ペア作成手段と、
前記共起ペア作成手段で作成した共起ペアのうち、当該共起ペアを含む基礎データに対応する原文データにおいて対象語と応要素とがこの順で記述されている原文データの数が逆順で記述されている原文データの数よりも多い共起ペアを呼応ペア候補として選択する呼応ペア候補選択手段と、
前記呼応ペア候補に基づいて、呼応ペアの集合として呼応ペアデータベースを生成する呼応ペアデータベース生成手段とを具備していることを特徴とする呼応ペアデータベース生成支援装置。

【請求項2】
前記基礎データベース生成手段が前処理として、原文データを形態素解析したデータについて、用言の活用形を原形に変換するとともに固有名詞を削除し、さらに五十音順に並べ替える処理を行って基礎データを生成するものである請求項1記載の呼応ペアデータベース生成支援装置。

【請求項3】
前記呼応ペア候補選択手段で選択した呼応ペア候補を構成している対象語を含む基礎データ数に対する当該呼応ペア候補を含む基礎データ数の割合を、各呼応ペア候補について信頼度として演算し、その演算結果から得られた信頼度が所定の閾値以上のものを呼応ペアとして選定する信頼度判定手段を更に具備し、前記呼応ペアデータベース生成支援が、この信頼度判定手段で選択された呼応ペアの集合に基づいて呼応ペアデータベースを生成するものである請求項1又は2記載の呼応ペアデータベース生成支援装置。

【請求項4】
前記信頼度の閾値を、0.04に設定している請求項3記載の呼応ペアデータベース生成支援装置。

【請求項5】
日本語の自然文からなる原文データの集合である原文データベースを検索することによって、同一文中において共起する2つの語のうち係り結びを形成する呼要素と応要素とを対にした呼応ペアの集合である呼応ペアデータベースを自動的に生成するためのコンピュータを、
原文データベースに格納された原文データについてそれぞれ形態素解析を含む前処理を実行することによって、前記形態素解析の結果から所定の品詞に該当する語を削除し更にその削除後の残余の語を所定の語順で並べ替えて各語に品詞情報を付したデータである基礎データを生成するとともに、この基礎データの集合である基礎データベースを生成する基礎データベース生成手段と、
呼要素となり得る所定の対象語に基づき前記基礎データベースを検索して当該対象語と共起する語を含む基礎データについて、当該対象語及び該対象語と共起する語の2つの語に対する二値パターンをそれぞれ二値n次元のベクトルとした場合に一方のベクトルが他方のベクトルにどれだけ類似しているかを表す補完類似度を演算する補完類似度演算手段と、
前記補完類似度演算手段による演算結果から所定以上のスコアを示した基礎データから対象語とその応要素とを対にした共起ペアを作成する共起ペア作成手段と、
前記共起ペア作成手段で作成した共起ペアのうち、当該共起ペアを含む基礎データに対応する原文データにおいて対象語と応要素とがこの順で記述されている原文データの数が逆順で記述されている原文データの数よりも多い共起ペアを呼応ペア候補として選択する呼応ペア候補選択手段と、
前記呼応ペアの集合として呼応ペアデータベースを生成する呼応ペアデータベース生成手段とを具備する呼応ペアデータベース生成支援装置として機能させることを特徴とする呼応ペアデータベース生成支援プログラム。

【請求項6】
前記コンピュータを、前記基礎データベース生成手段における前処理として、原文データを形態素解析したデータについて、用言の活用形を原形に変換するとともに固有名詞を削除し、さらに五十音順に並べ替える処理を行って基礎データを生成するように機能させる請求項5記載の呼応ペアデータベース生成支援プログラム。

【請求項7】
前記コンピュータを、前記呼応ペア候補選択手段で選択した呼応ペア候補を構成している対象語を含む基礎データ数に対する当該呼応ペア候補を含む基礎データ数の割合を、各呼応ペア候補について信頼度として演算し、その演算結果から得られた信頼度が所定の閾値以上のものを呼応ペアとして選定する信頼度判定手段を更に具備する呼応ペアデータベース生成支援装置として機能させ、さらに前記呼応ペアデータベース生成支援において、この信頼度判定手段で選択された呼応ペアの集合に基づいて呼応ペアデータベースを生成するように機能させる請求項5又は6記載の呼応ペアデータベース生成支援プログラム。

【請求項8】
前記信頼度の閾値を、0.04に設定している請求項7記載の呼応ペアデータベース生成支援プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2003132528thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close