TOP > 国内特許検索 > 文書検索処理方法および文書検索システム

文書検索処理方法および文書検索システム コモンズ

国内特許コード P140010720
整理番号 02-99
掲載日 2014年7月7日
出願番号 特願2002-292962
公開番号 特開2004-127131
登録番号 特許第3799447号
出願日 平成14年10月4日(2002.10.4)
公開日 平成16年4月22日(2004.4.22)
登録日 平成18年5月12日(2006.5.12)
発明者
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 文書検索処理方法および文書検索システム コモンズ
発明の概要 【課題】電子化された文書群から効率的にかつ高精度に文書検索できる文書検索処理方法を提供する。
【解決手段】文書検索システムでは、キーワード入力部11はキーワード群を入力し、文書取り込み部12は文書データベース2から文書を1つずつ取り込み、評価スコア算出部13は、各文書で領域を仮定し、その領域にキーワードが出現する確率を求め、この確率をもとにキーワード群の出現パターンの出現確率を算出し、出現確率が小さいほど評価が良いと判断して文書に評価スコアを付与する。出力文書抽出部14は、評価スコアが上位の文書を抽出し、出力整形部15は、抽出された文書を所定の形式に変形して検索結果として出力する。
【選択図】     図1
従来技術、競合技術の概要



電子化された文書群を検索する文書検索処理方法として、いくつかの手法がある。基本的な方法としてTF・IDF法が知られている。TF・IDF法は、単語の頻度情報を用いた検索手法であって、単語(キーワード)が文書内に出現する頻度(tf:Term Frequency)、および単語が出現する文書頻度(df:Document Frequency)の逆数をもちいて、以下の式により、より少ない文書に偏って出現するキーワードが多い場合にそのキーワードの重要度が高いものとして、かかるキーワードが多く出現する文書をよいと評価して評価スコアscore(D)が高い文書を検索結果として出力する。





score(D) =Σ((tf(w,D) * log(N/df(w)))

(Σは、集合Wの要素wで加算)

W:ユーザが入力するキーワードの集合、

tf(w,D):文書Dでのwの出現回数、

df(w):全文書でwが出現した文書の数、

N:文書の総数。





また、近年ではキーワードの出現位置に着目して、文書のタイトル中や文章の初めの方に出現するキーワードに高い重みを与える検索方法が有力であり、例えば、非特許文献1に提示された方法がある。非特許文献1で参照するRobertsonらのOkapi weightingの(1)式は、検索性能が高いことが知られている。また、非特許文献1で発明者らが提唱した(2)式は、新聞記事などのように記事のタイトルや記事の冒頭の文が重要であるような文書では検索性能がよいことが知られている。





また、キーワードの近接性を利用した文書検索はいくつか存在するが、例えば、非特許文献2に提示された方法などがある。非特許文献2に提示された方法は、そのキーワード同士の関連が高い場合に、キーワードが共起出現する距離が近いことは、その出現部分が局所的に重要であるとして、キーワードの出現位置を重要度付与の要素とするものである。





ところで、文書検索処理方法を適用する言語処理システムとして質問応答システムがある。質問応答システムは、自然言語による質問文「間接照応解析の精度はいくつですか」に対して「68%」などを解答として出力する処理システムである。一般的な、質問応答システムは、概ね以下のような処理を行う。





第1の手順:質問文からキーワードを取り出す。例えば、質問文「間接照応解析の精度はいくつですか」から、「間接照応」「解析」「精度」などをキーワードとして抽出する。





第2の手順:文書データベースの文書とキーワードとを照合して、適合する文書を取り出す。抽出したキーワードの集合を含む文書に、質問の解が記述されていることが期待できるからである。解が記述してある文書の候補として、20ぐらいの文書を取り出す。





第3の手順:候補として抽出した文書から解としてふさわしい表現を抜き出し、抜き出した表現を解答として出力する。





【非特許文献1】

村田真樹,他5名,”位置情報と分野情報を用いた情報検索”,自然言語処理(言語処理学会誌),言語処理学会,2000年,7巻,2号,p.141-160

【非特許文献2】

高木徹,他1名,”単語出現共起関係を用いた文書重要度付与の検討”,情報学基礎研究会誌,情報処理学会,1996年,FI-41-8,p.61-68

産業上の利用分野



本発明は、コンピュータによる情報検索処理技術に関する。特に、電子化された文書群からキーワードを照合して適合する文書を検索する文書検索処理方法、文書検索システム、および前記文書検索処理方法を利用した質問応答システムに関する。





近年では多数の電子化された文書が存在する。この電子化された文書を記録した文書データベースなどから効率よく検索できることが重要である。

特許請求の範囲 【請求項1】
文書取り込み部、領域仮定部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、
前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、
前記領域仮定部が、前記取得した文書に所定の領域を仮定するステップと、
前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、
前記キーワード仮定部が、前記入力されたキーワードの集合から1以上のキーワードを抽出してキーワード部分集合を生成するステップと、
前記評価スコア演算部が、前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせた積Qを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Pを求め、前記積Qに前記数Pとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、
前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える
ことを特徴とする文書検索処理方法。

【請求項2】
文書取り込み部、キーワード入力部、キーワード仮定部、評価スコア演算部、および出力文書抽出部を備えるコンピュータが、電子化された文書群を複数のキーワードを用いて照合し適合する文書を抽出処理する文書検索処理方法であって、
前記文書取り込み部が、電子化された文書群が記憶された文書データベースから文書を取得するステップと、
前記キーワード入力部が、複数のキーワードで構成されたキーワードの集合を入力するステップと、
前記キーワード仮定部が、前記キーワードの集合の1つのキーワードを第1キーワードと設定し、前記キーワードの集合の前記第1キーワード以外のキーワードを第2キーワードと設定するステップと、
前記評価スコア演算部が、前記第1キーワードと前記第2キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第2キーワードの個々について、当該第2キーワードの出現確率と、当該第2キーワードと前記第1キーワード間の距離にもとづいて求めた値を、前記第2キーワードの出現したものの分だけ掛け合わせた積Qを求め、前記積Qに前記第1キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し、前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出するステップと、
前記出力文書抽出部が、前記文書群から、前記評価スコアが良い所定数の文書を抽出するステップとを備える
ことを特徴とする文書検索処理方法。

【請求項3】
電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、
電子化された文書群を記憶する文書データベースと、
前記文書データベースから文書を取得する処理手段と、
前記文書に所定の領域を仮定する処理手段と、
複数のキーワードで構成されたキーワードの集合を入力する処理手段と、
前記入力されたキーワードの集合から1以上のキーワードを抽出してキーワード部分集合を生成する処理手段と、
前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせて値Qを求め、前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Pを求め、前記積Qに前記数Pとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、
前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、
前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える
ことを特徴とする文書検索システム。

【請求項4】
電子化された文書群を複数のキーワードで照合し適合する文書を抽出処理する文書検索システムであって、
電子化された文書群を記憶する文書データベースと、
前記文書データベースから文書を取得する処理手段と、
複数のキーワードで構成されたキーワードの集合を入力する処理手段と、
前記キーワードの集合の1つのキーワードを第1キーワードと設定し、前記キーワードの集合の前記第1キーワード以外のキーワードを第2キーワードと設定する処理手段と、
前記文書に出現する前記第1キーワードと前記第2キーワードをもとにキーワード出現パターンを生成し、前記キーワードの個々の出現確率を、前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し、前記第2キーワードの個々のキーワードについて、当該第2キーワードの出現確率と、当該第2キーワードと前記第1キーワード間の距離にもとづいて求めた値を、前記文書に出現した第2キーワードの分だけ掛け合わせた積Qを求め、前記積Qに前記第1キーワードの出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出する処理手段と、
前記キーワード出現パターンの出現確率の中から最小値を決定し、前記出現確率の最小値をもとに前記文書の評価スコアを算出する処理手段と、
前記文書群から、前記評価スコアが良い所定数の文書を抽出する処理手段とを備える
ことを特徴とする文書検索システム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2002292962thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close