Top > Search of Japanese Patents > APPARATUS AND PROGRAM FOR SUPPORTING GENERATION OF CONCORD PAIR DATABASE

APPARATUS AND PROGRAM FOR SUPPORTING GENERATION OF CONCORD PAIR DATABASE commons

Patent code P140010731
File No. 03-32
Posted date Jul 7, 2014
Application number P2003-132528
Publication number P2004-334730A
Patent number P3878998
Date of filing May 12, 2003
Date of publication of application Nov 25, 2004
Date of registration Nov 17, 2006
Inventor
  • (In Japanese)木田 敦子
  • (In Japanese)山本 英子
  • (In Japanese)桝山 享子
  • (In Japanese)井佐原 均
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title APPARATUS AND PROGRAM FOR SUPPORTING GENERATION OF CONCORD PAIR DATABASE commons
Abstract PROBLEM TO BE SOLVED: To automatically generate a concord pair database which can become basic data for research on "concord" in modern Japanese sentences, and can also be applied to application areas, such as syntactic parsing program.
SOLUTION: A computer generates a basic database DB2 which is a set of basic data by executing preprocessings including morphological analysis concerning original sentence data stored in an original sentence database DB1; searches the basic database DB2 on the basis of a prescribed object word, capable of becoming a call element to compute complementary similarity concerning basic data including a word cooccurring with the object word; generates a cooccurrence pair pairing the object word with its response word from the piece of basic data, having indicated a score equal to or above a prescribed score by the computation result; selects the cooccurrence pair taking into consideration of the number of the cooccurrence pairs in the original sentence data as a concord pair candidate; and generates a concord pair database DB3 as a set of concord pairs, on the basis of the concord pair candidates.
Outline of related art and contending technology (In Japanese)

中世以前の日本語には、係助詞と文末の活用形とが形態的な呼応関係を持つ「係り結び」の用法が存在したが、「係り結び」が消滅した現代の日本語の文章の場合、述語が文末に置かれるため、文の終末まで進まないとその文章の内容が確定しない。そのため、長文で複雑な内容の文章では、その内容が肯定的なのか否定的なのか、或いは疑問を表しているのかが文末まで読まないことには明らかにならない。ここで、現代日本語の文構造の研究において、現代語ではある種の副詞などが古語の係助詞と似た役割を果たしており、後続要素を予告しているとの示唆がなされている(例えば、非特許文献1参照)。例えば「決して……ない」や「たぶん……だろう」や「おそらく……だろう」などといった組み合わせは、呼応関係を形成する先行要素(呼要素)及び後続要素(応要素)のペアとして内省や直感である程度予測がつくと考えられると指摘されている(例えば、非特許文献2参照)。

【非特許文献1】

大野 晋,「係り結びの研究」,第1版,岩波書店,1993年1月12日,p350-351

【非特許文献2】

益岡 隆志,「モダリティの文法」,第1版,くろしお出版,1991年5月25日,p29-46

Field of industrial application (In Japanese)

本発明は、日本語文において「係り」と「結び」を形成する「呼応ペア」となる一対の語に係るデータベースを生成するための装置及びプログラムに関するものである。

Scope of claims (In Japanese)
【請求項1】
 
日本語の自然文からなる原文データの集合である原文データベースを検索することによって、同一文中において共起する2つの語のうち係り結びを形成する呼要素と応要素とを対にした呼応ペアの集合である呼応ペアデータベースを自動的に生成するためのコンピュータからなるものであって、
原文データベースに格納された原文データについてそれぞれ形態素解析を含む前処理を実行することによって、前記形態素解析の結果から所定の品詞に該当する語を削除し更にその削除後の残余の語を所定の語順で並べ替えて各語に品詞情報を付したデータである基礎データを生成するとともに、この基礎データの集合である基礎データベースを生成する基礎データベース生成手段と、
呼要素となり得る所定の対象語に基づき前記基礎データベースを検索して当該対象語と共起する語を含む基礎データについて、当該対象語及び該対象語と共起する語の2つの語に対する二値パターンをそれぞれ二値n次元のベクトルとした場合に一方のベクトルが他方のベクトルにどれだけ類似しているかを表す補完類似度を演算する補完類似度演算手段と、
前記補完類似度演算手段による演算結果から所定以上のスコアを示した基礎データから対象語とその応要素とを対にした共起ペアを作成する共起ペア作成手段と、
前記共起ペア作成手段で作成した共起ペアのうち、当該共起ペアを含む基礎データに対応する原文データにおいて対象語と応要素とがこの順で記述されている原文データの数が逆順で記述されている原文データの数よりも多い共起ペアを呼応ペア候補として選択する呼応ペア候補選択手段と、
前記呼応ペア候補に基づいて、呼応ペアの集合として呼応ペアデータベースを生成する呼応ペアデータベース生成手段とを具備していることを特徴とする呼応ペアデータベース生成支援装置。

【請求項2】
 
前記基礎データベース生成手段が前処理として、原文データを形態素解析したデータについて、用言の活用形を原形に変換するとともに固有名詞を削除し、さらに五十音順に並べ替える処理を行って基礎データを生成するものである請求項1記載の呼応ペアデータベース生成支援装置。

【請求項3】
 
前記呼応ペア候補選択手段で選択した呼応ペア候補を構成している対象語を含む基礎データ数に対する当該呼応ペア候補を含む基礎データ数の割合を、各呼応ペア候補について信頼度として演算し、その演算結果から得られた信頼度が所定の閾値以上のものを呼応ペアとして選定する信頼度判定手段を更に具備し、前記呼応ペアデータベース生成支援が、この信頼度判定手段で選択された呼応ペアの集合に基づいて呼応ペアデータベースを生成するものである請求項1又は2記載の呼応ペアデータベース生成支援装置。

【請求項4】
 
前記信頼度の閾値を、0.04に設定している請求項3記載の呼応ペアデータベース生成支援装置。

【請求項5】
 
日本語の自然文からなる原文データの集合である原文データベースを検索することによって、同一文中において共起する2つの語のうち係り結びを形成する呼要素と応要素とを対にした呼応ペアの集合である呼応ペアデータベースを自動的に生成するためのコンピュータを、
原文データベースに格納された原文データについてそれぞれ形態素解析を含む前処理を実行することによって、前記形態素解析の結果から所定の品詞に該当する語を削除し更にその削除後の残余の語を所定の語順で並べ替えて各語に品詞情報を付したデータである基礎データを生成するとともに、この基礎データの集合である基礎データベースを生成する基礎データベース生成手段と、
呼要素となり得る所定の対象語に基づき前記基礎データベースを検索して当該対象語と共起する語を含む基礎データについて、当該対象語及び該対象語と共起する語の2つの語に対する二値パターンをそれぞれ二値n次元のベクトルとした場合に一方のベクトルが他方のベクトルにどれだけ類似しているかを表す補完類似度を演算する補完類似度演算手段と、
前記補完類似度演算手段による演算結果から所定以上のスコアを示した基礎データから対象語とその応要素とを対にした共起ペアを作成する共起ペア作成手段と、
前記共起ペア作成手段で作成した共起ペアのうち、当該共起ペアを含む基礎データに対応する原文データにおいて対象語と応要素とがこの順で記述されている原文データの数が逆順で記述されている原文データの数よりも多い共起ペアを呼応ペア候補として選択する呼応ペア候補選択手段と、
前記呼応ペアの集合として呼応ペアデータベースを生成する呼応ペアデータベース生成手段とを具備する呼応ペアデータベース生成支援装置として機能させることを特徴とする呼応ペアデータベース生成支援プログラム。

【請求項6】
 
前記コンピュータを、前記基礎データベース生成手段における前処理として、原文データを形態素解析したデータについて、用言の活用形を原形に変換するとともに固有名詞を削除し、さらに五十音順に並べ替える処理を行って基礎データを生成するように機能させる請求項5記載の呼応ペアデータベース生成支援プログラム。

【請求項7】
 
前記コンピュータを、前記呼応ペア候補選択手段で選択した呼応ペア候補を構成している対象語を含む基礎データ数に対する当該呼応ペア候補を含む基礎データ数の割合を、各呼応ペア候補について信頼度として演算し、その演算結果から得られた信頼度が所定の閾値以上のものを呼応ペアとして選定する信頼度判定手段を更に具備する呼応ペアデータベース生成支援装置として機能させ、さらに前記呼応ペアデータベース生成支援において、この信頼度判定手段で選択された呼応ペアの集合に基づいて呼応ペアデータベースを生成するように機能させる請求項5又は6記載の呼応ペアデータベース生成支援プログラム。

【請求項8】
 
前記信頼度の閾値を、0.04に設定している請求項7記載の呼応ペアデータベース生成支援プログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2003132528thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close