TOP > 国内特許検索 > 質問応答システム

質問応答システム コモンズ

国内特許コード P140010548
整理番号 05-47
掲載日 2014年5月21日
出願番号 特願2005-240160
公開番号 特開2006-024232
登録番号 特許第3861105号
出願日 平成17年8月22日(2005.8.22)
公開日 平成18年1月26日(2006.1.26)
登録日 平成18年10月6日(2006.10.6)
発明者
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 質問応答システム コモンズ
発明の概要 【課題】 文書を分割せずに高精度に検索する方法を用いて,高精度な質問応答システムを提供する。
【解決手段】 質問文入力部41は質問文を入力し,解表現予測部42は質問文から解表現を予測する。キーワード抽出部43は質問文から複数のキーワード(キーワード集合)を抽出する。文書検索部44は文書DB2から取得した文書に領域を仮定し,キーワード集合から抽出したキーワードでキーワード部分集合を生成し,領域に出現するキーワード部分集合のキーワードをもとにキーワード出現パターン(パターン)を生成して,文書ごとにキーワードの個々の出現確率にもとづいて領域に出現するパターンの出現確率を算出する。また,文書において算出したパターンの出現確率の中から最小値を決定して文書の評価スコアを算出し,文書群から評価スコアが良い文書を所定数抽出する。解抽出部45は文書から解表現に適合する語句を抽出し,解答出力部46はその解を質問文の解答として出力する。
【選択図】 図8
従来技術、競合技術の概要


電子化された文書群を検索する文書検索処理方法として,いくつかの手法がある。基本的な方法としてTF・IDF法が知られている。TF・IDF法は,単語の頻度情報を用いた検索手法であって,単語(キーワード)が文書内に出現する頻度(tf:Term Frequency),および単語が出現する文書頻度(df:Document Frequency)の逆数をもちいて,以下の式により,より少ない文書に偏って出現するキーワードが多い場合にそのキーワードの重要度が高いものとして,かかるキーワードが多く出現する文書をよいと評価して評価スコアscore(D)が高い文書を検索結果として出力する。



score(D) =Σ((tf(w,D) * log(N/df(w)))
(Σは,集合Wの要素wで加算)
W:ユーザが入力するキーワードの集合,
tf(w,D):文書Dでのwの出現回数,
df(w):全文書でwが出現した文書の数,
N:文書の総数。



また,近年ではキーワードの出現位置に着目して,文書のタイトル中や文章の初めの方に出現するキーワードに高い重みを与える検索方法が有力であり,例えば,非特許文献1に提示された方法がある。非特許文献1で参照するRobertsonらのOkapi weightingの(1)式は,検索性能が高いことが知られている。また,非特許文献1で発明者らが提唱した(2)式は,新聞記事などのように記事のタイトルや記事の冒頭の文が重要であるような文書では検索性能がよいことが知られている。



また,キーワードの近接性を利用した文書検索はいくつか存在するが,例えば,非特許文献2に提示された方法などがある。非特許文献2に提示された方法は,そのキーワード同士の関連が高い場合に,キーワードが共起出現する距離が近いことは,その出現部分が局所的に重要であるとして,キーワードの出現位置を重要度付与の要素とするものである。



文書検索処理方法を適用する言語処理システムとして質問応答システムがある。質問応答システムは,自然言語による質問文「間接照応解析の精度はいくつですか」に対して「68%」などを解答として出力する処理システムである。一般的な,質問応答システムは,概ね以下のような処理を行う。



第1の手順:質問文からキーワードを取り出す。例えば,質問文「間接照応解析の精度はいくつですか」から,「間接照応」「解析」「精度」などをキーワードとして抽出する。



第2の手順:文書データベースの文書とキーワードとを照合して,適合する文書を取り出す。抽出したキーワードの集合を含む文書に,質問の解が記述されていることが期待できるからである。解が記述してある文書の候補として,20ぐらいの文書を取り出す。



第3の手順:候補として抽出した文書から解としてふさわしい表現を抜き出し,抜き出した表現を解答として出力する。
【非特許文献1】
村田真樹,他5名,”位置情報と分野情報を用いた情報検索”,自然言語処理(言語処理学会誌),言語処理学会,2000年,7巻,2号,p.141-160
【非特許文献2】
高木徹,他1名,”単語出現共起関係を用いた文書重要度付与の検討”,情報学基礎研究会誌,情報処理学会,1996年,FI-41-8,p.61-68

産業上の利用分野



本発明は,電子化された文書群からキーワードを照合して適合する文書を検索する文書検索処理方法を利用した質問応答システムに関する。





近年では多数の電子化された文書が存在する。この電子化された文書を記録した文書データベースなどから効率よく検索できることが重要である。

特許請求の範囲 【請求項1】
自然言語による質問文を用いて電子化された文書群を参照し,当該質問文に適合する解答を出力する質問応答システムにおいて,
電子化された文書群を記憶する文書データベースと,
電子化された自然言語による質問文を入力する質問文入力手段と,
前記質問文から,解となりうる語句を示す解表現を予測する解表現予測手段と,
前記質問文から複数のキーワードを抽出してキーワード集合とするキーワード抽出手段と,
前記文書データベースから文書を取得する文書取得手段と,
前記取得した文書に所定の領域を仮定する領域仮定手段と,
前記キーワード集合から1以上のキーワードを抽出してキーワード部分集合を生成するキーワード部分集合生成手段と,
前記領域に出現するキーワード部分集合の構成要素であるキーワードをもとにキーワード出現パターンを生成し,前記キーワードの個々の出現確率を,前記文書群において当該キーワードが出現した文書数を前記文書群の文書全数で割った値にもとづくものと設定し,前記キーワードの個々の出現確率を前記領域に出現したキーワード分だけ掛け合わせた積Qを求め,前記領域に出現したキーワード出現パターンの場合の数を順列にもとづいて求めた場合の数Pを求め,前記積Qに前記数Pとを掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し,前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し,前記出現確率の最小値をもとに前記文書の評価スコアを算出する文書評価スコア算出手段と,
前記文書群から,前記評価スコアが良い所定数の文書を抽出する文書抽出手段と,
前記抽出した文書から前記解表現に適合する語句を解として抽出する解表現抽出手段とを備える
ことを特徴とする質問応答システム。

【請求項2】
自然言語による質問文を用いて電子化された文書群を参照し,当該質問文に適合する解答を出力する質問応答システムにおいて,
電子化された文書群を記憶する文書データベースと,
電子化された自然言語による質問文を入力する質問文入力手段と,
前記質問文から,解となりうる語句を示す解表現を予測する解表現予測手段と,
前記質問文から複数のキーワード(w)を抽出してキーワード集合とするキーワード抽出手段と,
前記文書データベースから文書を取得する文書取得手段と,
前記キーワード(w)の集合の1つのキーワードを第1キーワード(w1)と設定し,前記キーワード(w)の集合の前記第1キーワード(w1)以外のキーワードを第2キーワード(w2)と設定し,前記第1キーワード(w1)と前記第2キーワード(w2)をもとにキーワード出現パターンを生成し,前記キーワード(w)の個々の出現確率を,前記文書群において当該キーワード(w)が出現した文書数(df(w))を前記文書群の文書全数(N)で割った値(df(w)/N)にもとづくものと設定し,前記第2キーワード(w2)の個々について,当該第2キーワード(w2)の出現確率と,当該第2キーワード(w2)と前記第1キーワード(w1)間の距離(dist(w1,w2))にもとづいて求めた値を,前記第2キーワード(w2)の出現したものの分だけ掛け合わせた積Qを求め,前記積Qに前記第1キーワード(w1)の出現確率を掛け合わせた積にもとづいて前記キーワード出現パターンの出現確率を算出し,前記文書において算出した前記キーワード出現パターンの出現確率の中から最小値を決定し,前記出現確率の最小値をもとに前記文書の評価スコアを算出する文書評価スコア算出手段と,
前記文書群から,前記評価スコアが良い所定数の文書を抽出する文書抽出手段と,
前記抽出した文書から前記解表現に適合する語句を解として抽出する解表現抽出手段とを備える
ことを特徴とする質問応答システム。

【請求項3】
自然言語による質問文を用いて電子化された文書群を参照し,当該質問文に適合する解答を出力する質問応答システムにおいて,
電子化された文書群を記憶する文書データベースと,
電子化された自然言語による質問文を入力する質問文入力手段と,
前記質問文から,解となりうる語句を示す解表現を予測する解表現予測手段と,
前記質問文から複数のキーワード(w)を抽出してキーワード集合とするキーワード抽出手段と,
前記文書データベースを前記キーワード(w)を用いて検索し,前記キーワード(w)を含む文書を抽出する文書検索手段と,
前記抽出した文書において前記解となりうる表現の語句を解候補(w1)として仮定する解表現仮定手段と,
前記解候補(w1)と前記キーワード(w)の集合の各キーワード(w2)をもとに出現パターンを生成し,前記キーワード(w2)の個々の出現確率を,前記文書群において当該キーワード(w2)が出現した文書数(df(w2))を前記文書群の文書全数(N)で割った値(df(w2)/N)にもとづくものと設定し,前記抽出した文書について,前記文書ごとに,前記解候補(w1)と前記キーワード(w2)との距離(dist(w1,w2))を求め,前記距離(dist(w1,w2))と前記キーワード(w2)が出現する確率とにもとづいて前記出現パターンの出現確率を算出し,前記算出した出現パターンの出現確率の中から最小値を決定し,前記出現確率の最小値をもとに前記解候補(w1)の評価スコアを算出する解評価スコア算出手段と,
前記解候補(w1)から,前記評価スコアが良い所定数の解候補(w1)を抽出する解抽出手段と,
前記抽出した解候補(w1)を前記質問文の解として出力する解出力手段とを備える
ことを特徴とする質問応答システム。

【請求項4】
自然言語による質問文を用いて電子化された文書群を参照し,当該質問文に適合する解答を出力する質問応答システムにおいて,
電子化された文書群を記憶する文書データベースと,
電子化された自然言語による質問文を入力する質問文入力手段と,
前記質問文から,解となりうる語句を示す解表現を予測する解表現予測手段と,
前記質問文から複数のキーワード(w)を抽出してキーワード集合とするキーワード抽出手段と,
前記文書データベースを前記キーワード(w)を用いて検索し,前記キーワード(w)を含む文書を抽出する文書検索手段と,
前記抽出した文書において前記解となりうる表現の語句を解候補(w1)として仮定する解表現仮定手段と,
前記解候補(w1)と前記キーワード(w)の集合の各キーワード(w2)をもとに出現パターンを生成し,前記キーワード(w2)の個々の出現確率を,前記文書群において当該キーワード(w2)が出現した文書数(df(w2))を前記文書群の文書全数(N)で割った値(df(w2)/N)にもとづくものと設定し,前記キーワード(w2)の個々について,当該キーワード(w2)の出現確率と,前記解候補(w1)と当該キーワード(w2)との距離(dist(w1,w2))にもとづいて求めた値を,前記キーワード(w2)の出現したものの分だけ掛け合わせた積にもとづいて前記出現パターンの出現確率を算出し,前記算出した出現パターンの出現確率の中から最小値を決定し,前記出現確率の最小値をもとに前記解候補(w1)の評価スコアを算出する解評価スコア算出手段と,
前記解候補(w1)から,前記評価スコアが良い所定数の解候補(w1)を抽出する解抽出手段と,
前記抽出した解候補(w1)を前記質問文の解として出力する解出力手段とを備える
ことを特徴とする質問応答システム。

【請求項5】
前記解として出力された解候補を含む文書のうち,前記評価スコアの良い解候補を含む文書を解記述文書として特定し,前記解記述文書または前記解記述文書に関する情報を出力する解記述文書出力手段を備える
ことを特徴とする請求項1ないし請求項4のいずれか一項に記載の質問応答システム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2005240160thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close