Top > Search of Japanese Patents > DOCUMENT RETRIEVAL PROCESS AND SYSTEM AND QUESTION-AND-ANSWER SYSTEM

DOCUMENT RETRIEVAL PROCESS AND SYSTEM AND QUESTION-AND-ANSWER SYSTEM commons

Patent code P140010720
File No. 02-99
Posted date Jul 7, 2014
Application number P2002-292962
Publication number P2004-127131A
Patent number P3799447
Date of filing Oct 4, 2002
Date of publication of application Apr 22, 2004
Date of registration May 12, 2006
Inventor
  • (In Japanese)村田 真樹
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title DOCUMENT RETRIEVAL PROCESS AND SYSTEM AND QUESTION-AND-ANSWER SYSTEM commons
Abstract PROBLEM TO BE SOLVED: To provide a document retrieval process making it possible to retrieve a group of digitized documents for the desired document with high efficiency and accuracy.
SOLUTION: In a document retrieval system, a keyword input part 11 inputs a group of keywords; a document sampling part 12 samples documents one by one from a document database 2; an evaluation score calculating part 13 supposes an area on each document, calculates the probability with which each keyword appears in the area, calculates the probability of appearance of the appearance pattern of the group of keywords based on the probability, and imparts evaluation scores to the documents in such a way that the smaller the probability of appearance is, the higher the document will score. An output document extracting part 14 extracts the documents that score higher. An output shaping part 15 outputs the extracted documents as the results of retrieval while converting their formats into predetermined formats.
Outline of related art and contending technology (In Japanese)

電子化された文書群を検索する文書検索処理方法として、いくつかの手法がある。基本的な方法としてTF・IDF法が知られている。TF・IDF法は、単語の頻度情報を用いた検索手法であって、単語(キーワード)が文書内に出現する頻度(tf:Term Frequency)、および単語が出現する文書頻度(df:Document Frequency)の逆数をもちいて、以下の式により、より少ない文書に偏って出現するキーワードが多い場合にそのキーワードの重要度が高いものとして、かかるキーワードが多く出現する文書をよいと評価して評価スコアscore(D)が高い文書を検索結果として出力する。

score(D) =Σ((tf(w,D) * log(N/df(w)))

(Σは、集合Wの要素wで加算)

W:ユーザが入力するキーワードの集合、

tf(w,D):文書Dでのwの出現回数、

df(w):全文書でwが出現した文書の数、

N:文書の総数。

また、近年ではキーワードの出現位置に着目して、文書のタイトル中や文章の初めの方に出現するキーワードに高い重みを与える検索方法が有力であり、例えば、非特許文献1に提示された方法がある。非特許文献1で参照するRobertsonらのOkapi weightingの(1)式は、検索性能が高いことが知られている。また、非特許文献1で発明者らが提唱した(2)式は、新聞記事などのように記事のタイトルや記事の冒頭の文が重要であるような文書では検索性能がよいことが知られている。

また、キーワードの近接性を利用した文書検索はいくつか存在するが、例えば、非特許文献2に提示された方法などがある。非特許文献2に提示された方法は、そのキーワード同士の関連が高い場合に、キーワードが共起出現する距離が近いことは、その出現部分が局所的に重要であるとして、キーワードの出現位置を重要度付与の要素とするものである。

ところで、文書検索処理方法を適用する言語処理システムとして質問応答システムがある。質問応答システムは、自然言語による質問文「間接照応解析の精度はいくつですか」に対して「68%」などを解答として出力する処理システムである。一般的な、質問応答システムは、概ね以下のような処理を行う。

第1の手順:質問文からキーワードを取り出す。例えば、質問文「間接照応解析の精度はいくつですか」から、「間接照応」「解析」「精度」などをキーワードとして抽出する。

第2の手順:文書データベースの文書とキーワードとを照合して、適合する文書を取り出す。抽出したキーワードの集合を含む文書に、質問の解が記述されていることが期待できるからである。解が記述してある文書の候補として、20ぐらいの文書を取り出す。

第3の手順:候補として抽出した文書から解としてふさわしい表現を抜き出し、抜き出した表現を解答として出力する。

【非特許文献1】

村田真樹,他5名,”位置情報と分野情報を用いた情報検索”,自然言語処理(言語処理学会誌),言語処理学会,2000年,7巻,2号,p.141-160

【非特許文献2】

高木徹,他1名,”単語出現共起関係を用いた文書重要度付与の検討”,情報学基礎研究会誌,情報処理学会,1996年,FI-41-8,p.61-68

Field of industrial application (In Japanese)

本発明は、コンピュータによる情報検索処理技術に関する。特に、電子化された文書群からキーワードを照合して適合する文書を検索する文書検索処理方法、文書検索システム、および前記文書検索処理方法を利用した質問応答システムに関する。

近年では多数の電子化された文書が存在する。この電子化された文書を記録した文書データベースなどから効率よく検索できることが重要である。

Scope of claims (In Japanese)
【請求項1】
 
文書取り込み部、領域仮定部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、
前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、
前記領域仮定部が、前記取得した文書に所定の領域を仮定するステップと、
前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、
前記キーワード仮定部が、前記入力されたキーワードの集合から1以上のキーワードを抽出してキーワード部分集合を生成するステップと、
前記評価スコア演算部が、前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせた積Qを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Pを求め、前記積Qに前記数Pとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、
前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える
ことを特徴とする文書検索処理方法。

【請求項2】
 
文書取り込み部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、
前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、
前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、
前記キーワード仮定部が、前記キーワードの集合の1つのキーワードを第1キーワードと設定し、前記キーワードの集合の前記第1キーワード以外のキーワードを第2キーワードと設定するステップと、
前記評価スコア演算部が、前記第1キーワードと前記第2キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第2キーワードの個々について、当該第2キーワードの出現確率と、当該第2キーワードと前記第1キーワード間の距離にもとづいて求めた値を、前記第2キーワードの出現したものの分だけ掛け合わせた積Qを求め、前記積Qに前記第1キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、
前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える
ことを特徴とする文書検索処理方法。

【請求項3】
 
電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、
電子化された文書群を記憶する文書データベースと、
前記文書データベースから文書を取得する処理手段と、
前記文書に所定の領域を仮定する処理手段と、
複数のキーワードで構成されたキーワードの集合を入力する処理手段と、
前記入力されたキーワードの集合から1以上のキーワードを抽出してキーワード部分集合を生成する処理手段と、
前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせて値Qを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Pを求め、前記積Qに前記数Pとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、
前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、
前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える
ことを特徴とする文書検索システム。

【請求項4】
 
電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、
電子化された文書群を記憶する文書データベースと、
前記文書データベースから文書を取得する処理手段と、
複数のキーワードで構成されたキーワードの集合を入力する処理手段と、
前記キーワードの集合の1つのキーワードを第1キーワードと設定し、前記キーワードの集合の前記第1キーワード以外のキーワードを第2キーワードと設定する処理手段と、
前記文書に出現する前記第1キーワードと前記第2キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第2キーワードの個々のキーワードについて、当該第2キーワードの出現確率と、当該第2キーワードと前記第1キーワード間の距離にもとづいて求めた値を、前記文書に出現した第2キーワードの分だけ掛け合わせた積Qを求め、前記積Qに前記第1キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、
前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、
前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える
ことを特徴とする文書検索システム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2002292962thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close