TOP > 国内特許検索 > 質問応答システムおよび質問応答処理方法

質問応答システムおよび質問応答処理方法 コモンズ

国内特許コード P140010739
整理番号 03-104
掲載日 2014年7月7日
出願番号 特願2003-357789
公開番号 特開2005-122533
登録番号 特許第3882048号
出願日 平成15年10月17日(2003.10.17)
公開日 平成17年5月12日(2005.5.12)
登録日 平成18年11月24日(2006.11.24)
発明者
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 質問応答システムおよび質問応答処理方法 コモンズ
発明の概要 【課題】 質問応答システムで、出現頻度の高い解答候補を良く評価しやすい悪影響を軽減して解答候補の抽出精度を向上させる。
【解決手段】 解答タイプ推定部20は質問文から解答の解答タイプを推定し、文書検索部30は質問文からキーワードを抽出して文書データベース2を検索する。解答候補抽出部40は、抽出文書データから解答となりうる言語表現(解答候補)を抽出して評価点を付与する。同一の言語表現である解答候補が複数あれば、それらの評価点を評価のよい順に並べ、各評価点に対して処理する値が逓減するような重み付けを用いて評価点の値を計算し、その値の総和をその解答候補の評価点とする。解答出力部50は、集計された評価点が所定の評価以上である解答候補を解答として出力する。
【選択図】図1
従来技術、競合技術の概要


一般的な質問応答システムは、おおまかに、解答表現推定処理、文書検索処理、解答抽出処理という3つの処理手段で構成されている。



解答表現推定処理は、入力した質問文中の疑問代名詞の表現などに基づいて解答表現を推定する処理である。解答表現とは、所望される解答の言語表現の類型である。



質問応答システムは、予め、どのような質問文の言語表現がどのような解答表現を要求しているかという対応関係を定めておく。そして、例えば入力した質問文が「日本の面積はどのくらいですか」である場合には、所定の対応関係を参照して、質問文中の「どのくらい」という表現から解答表現は「数値表現」であろうと推定する。また、質問文が「日本の首相はだれですか」という場合には、質問文中の「だれ」という表現から、解答表現は「固有名詞(人名)」であろうと推定する。



文書検索処理は、質問文からキーワードを取り出し、取り出したキーワードを用いて文書データ群を検索し、解答が記述されていると考えられる文書データを抽出する処理である。



質問応答システムは、例えば、入力の質問文が「日本の面積はどのくらいですか」である場合に、質問文から「日本」および「面積」をキーワードとして抽出し、検索対象とするさまざまな文書データ群から、抽出したキーワード「日本」および「面積」を含む文書データを検索する。



解答抽出処理は、文書検索処理で抽出されたキーワードを含む文書データから、推定した解答表現に適合する言語表現を抽出し、それを解答として出力する処理である。



質問応答システムは、例えば、文書検索処理において検索されたキーワード「日本」および「面積」を含む文書データから、解答表現推定処理において推定した「数値表現」にあたる言語表現を解答として抽出する。



前記のような処理を行うことにより、質問応答システムは、質問文「日本の首都はどこですか」に対して解答「東京」を出力する。



現在では、解答を出力する場合に、解答の候補に適合度など解答候補の評価を示す得点(評価点)を付与しておき、所定の評価点を得た解答候補を解答として出力する質問応答システムも存在する。例えば、質問文「日本の首都はどこですか」に対する解答候補に評価点を付与する場合に、解答候補データとして、「順位;解答候補;評価点;解答候補を取り出した文書データ識別情報(文書番号)」が以下のように出力されるとする。



1;京都;3.3;文書番号134、
2;東京;3.2;文書番号12、
3;東京;2.8;文書番号455、
4;東京;2.5;文書番号371、
5;東京;2.4;文書番号221、
6;北京;2.2;文書番号113。



そして、質問応答システムが、第1位の解答候補を採用し、解答として「京都」を出力すれば、正解は「東京」であるから、間違った解答を出力することになる。



そこで、解答探索の対象となる文書データ内で、質問の内容に関する表現と共に多くの箇所に出現する言語表現は、その質問についてより関連性があると考えられ、質問の解答により適合しうるとの考えにもとづいて、異なる文書データまたは文書データ内の別の箇所に出現している言語表現が同じ解答候補については、各解答候補の評価点をそれぞれ加算し、その総和を解答候補の評価点とするという手法がある(例えば、非特許文献1参照)。
【非特許文献1】
Toru Takaki, Yoshio Eriguchi、「NTTDATA Question-Answering EXperiment at the NTCIR-3 QAC」、National Institute of Informatics(国立情報学研究所)、The NTCIR Workshop 3 Meeting( 第3回NTCIRワークショップ・ミーティング) 、2002年10月、p.95-100

産業上の利用分野



本発明は、コンピュータによる自然言語処理システムとして、自然言語で表現された質問文に対する解答を出力する質問応答システムに関する。さらに詳しくは、解答の候補を抽出する際に、同一の言語表現である複数の解答候補の評価点を加算してその評価点とし、所定の評価点が付与された解答候補を解答として出力する質問応答システムに関するものである。





質問応答システムとは、自然言語による質問を入力すると、その解答そのものを出力するシステムである。例えば、「パーキンソン病の兆候は脳のどの部分にある細胞の死が関係していますか。」という質問を入力すると、Web、新聞記事、事典などのデータを含む大量の電子化テキストから「パーキンソン病は、中脳の黒質にあるメラニン細胞が変性し、黒質細胞内で作られる神経伝達物質のドーパミンがなくなり発病する、とされている。」といった文を探し出し、「黒質」と的確に解答を出力する。





質問応答システムは、論理式やデータベースでなく、自然言語で書かれた普通の文(テキストデータ)から解答を取り出すことができるため、大量の既存の文書データを利用することができる。





また、質問応答システムは、キーワードで検索した記事から解を探す必要がある情報検索システムなどと異なって、解自体を的確に出力するため、ユーザがより早く解の情報を得ることができる。





また、質問応答システムは、解自体を自動で出力するため、他の自動の知識処理システムの内部での知識処理システムとして利用することも可能であり、人工知能システムを作成する場合には最低限必要な処理技術であると考えられる。





このように有用な質問応答システムは、将来的に知的処理・知識処理の根幹システムとなると考えられ、処理能力の向上が期待されている。

特許請求の範囲 【請求項1】
自然言語で表現された質問文データを入力し、解答の検索対象である文書データ群から質問文データに対する解答を出力する質問応答システムであって、
入力した質問文データの言語表現を解析し、前記質問文データに対して解答となりうる言語表現の類型である解答タイプを推定する解答タイプ推定手段と、
前記質問文データからキーワードを抽出し、前記文書データ群から前記キーワードを含む文書データを検索、抽出する文書検索手段と、
前記文書データから前記解答となりうる言語表現を抽出して解答候補とし、前記解答候補に評価点を付与する解答候補評価点算出手段と、
同一の言語表現である解答候補ごとに評価点を集計する場合に、同一の言語表現である解答候補の評価点を評価点の大きい順に並べ、各評価点に対して処理する値が評価点の順位が下がるにつれて逓減するような重み付けを用いて前記評価点を計算し、前記評価点の総和を前記同一の言語表現である解答候補の集計された評価点とする解答候補評価点集計手段と、
前記解答候補評価点集計手段で集計された評価点が所定の評価以上である解答候補を解答として出力する解答出力手段とを備える
ことを特徴とする質問応答システム。

【請求項2】
前記解答候補評価点集計手段は、同一の言語表現である解答候補ごとに評価点を集計する場合に、同一の言語表現である解答候補の評価点を評価点の大きい順に並べ、nは同一の言語表現の解答候補の個数とし、Point(1≦i≦n)は前記解答候補のi番目の解答候補の評価点とし、第1式:
Score=Σ 1/(i+b)/(i+b-1)*Point (Σは、iが1からnまでの値をとる場合の総和)
を計算して、前記同一の言語表現である解答候補の集計された評価点とする処理を行う
ことを特徴とする請求項1記載の質問応答システム。

【請求項3】
前記解答候補評価点集計手段は、前記第1式のbを0.1以上0.5以下のいずれかの値とする式を用いて前記集計された評価点を計算する
ことを特徴とする請求項2記載の質問応答システム。

【請求項4】
前記解答候補評価点集計手段は、同一の言語表現である解答候補ごとに評価点を集計する場合に、同一の言語表現である解答候補の評価点を評価点の大きい順に並べ、nは同一の言語表現の解答候補の個数とし、Point(1≦i≦n)は前記解答候補のi番目の解答候補の評価点とし、第2式:
Score=Σ ki-1*Point (Σは、iが1からnまでの値をとる場合の総和)
を計算して、前記同一の言語表現である解答候補の集計された評価点とする処理を行う
ことを特徴とする請求項1記載の質問応答システム。

【請求項5】
前記解答候補評価点集計手段は、前記第2式のkを0.1以上0.5以下のいずれかの値とする式を用いて前記集計された評価点を計算する
ことを特徴とする請求項4記載の質問応答システム。

【請求項6】
解答タイプ推定手段、文書検索手段、解答候補評価点算出手段、解答候補評価点集計手段、および解答出力手段とを備えるコンピュータが、自然言語で表現された質問文データを入力し、解答の検索対象である文書データ群から質問文データに対する解答を出力する質問応答処理方法であって、
前記解答タイプ推定手段が、入力した質問文データの言語表現を解析し、前記質問文データに対する解答となりうる言語表現の類型である解答タイプを推定する解答タイプ推定処理過程と、
前記文書検索手段が、前記質問文データからキーワードを抽出し、前記文書データ群から前記キーワードを含む文書データを検索、抽出する文書検索処理過程と、
前記解答候補評価点算出手段が、前記文書データから前記解答となりうる言語表現を抽出して解答候補とし、前記解答候補に評価点を付与する解答候補評価点算出処理過程と、
前記解答候補評価点集計手段が、同一の言語表現である解答候補ごとに評価点を集計する場合に、同一の言語表現である解答候補の評価点を評価点の大きい順に並べ、各評価点に対して処理する値が評価点の順位が下がるにつれて逓減するような重み付けを用いて前記評価点を計算し、前記評価点の総和を前記同一の言語表現である解答候補の集計された評価点とする解答候補評価点集計処理過程と、
前記解答出力手段が、前記解答候補評価点集計処理過程で集計された評価点が所定の評価以上である解答候補を解答として出力する解答出力処理過程とを備える
ことを特徴とする質問応答処理方法。

【請求項7】
前記解答候補評価点集計処理過程において、前記解答候補評価点集計手段は、同一の言語表現である解答候補ごとに評価点を集計する場合に、同一の言語表現である解答候補の評価点を評価点の大きい順に並べ、nは同一の言語表現の解答候補の個数とし、Point(1≦i≦n)は前記解答候補のi番目の解答候補の評価点とし、第1式:
Score=Σ 1/(i+b)/(i+b-1)*Point(Σは、iが1からnまでの値をとる場合の総和)
を計算して、前記同一の言語表現である解答候補の集計された評価点とする処理を行う
ことを特徴とする請求項6記載の質問応答処理方法。

【請求項8】
前記解答候補評価点集計処理過程において、前記解答候補評価点集計手段は、同一の言語表現である解答候補ごとに評価点を集計する場合に、同一の言語表現である解答候補の評価点を評価点の大きい順に並べ、nは同一の言語表現の解答候補の個数とし、Point(1≦i≦n)は前記解答候補のi番目の解答候補の評価点とし、第2式:
Score=Σ ki-1*Point (Σは、iが1からnまでの値をとる場合の総和)
を計算して、前記同一の言語表現である解答候補の集計された評価点とする処理を行う
ことを特徴とする請求項6記載の質問応答処理方法。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2003357789thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close