TOP > 国内特許検索 > 質問応答装置、質問応答方法および質問応答プログラム

質問応答装置、質問応答方法および質問応答プログラム コモンズ

国内特許コード P140010542
整理番号 05-39
掲載日 2014年5月13日
出願番号 特願2005-354207
公開番号 特開2007-157006
登録番号 特許第4849596号
出願日 平成17年12月8日(2005.12.8)
公開日 平成19年6月21日(2007.6.21)
登録日 平成23年10月28日(2011.10.28)
発明者
  • 村田 真樹
  • 馬 青
  • 井佐原 均
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 質問応答装置、質問応答方法および質問応答プログラム コモンズ
発明の概要 【課題】問い合わせられた質問に対する解答および問い合わせられた質問以外の質問に対する解答を出力することを可能とする。
【解決手段】キーワード入力部11にキーワードが入力されると、キーワード増加部12が、キーワード抽出技術を用いて、入力された各キーワードと同じ分野のキーワードをキーワード抽出用DB16から抽出し、キーワードの総数を増加させ、解答候補抽出部14が、機械学習の手法を用いて、キーワード増加部12によって増加されたキーワードによって構成される質問に対する解答候補を抽出し、解答表出力部15が、抽出された各解答候補が質問と対応付けられた表を解答表として出力する。
【選択図】図1
従来技術、競合技術の概要


一般的な質問応答装置(または質問応答システム)は、おおまかに、解答表現推定処理、文書検索処理、解答抽出処理という3つの処理手段で構成されている。



解答表現推定処理は、入力した質問中の疑問代名詞の表現などに基づいて解答表現を推定する処理である。解答表現とは、所望される解答の言語表現の類型であって、解答となる言語表現の意味に基づいた類型(解答タイプ)、解答となる言語表現の表記に基づいた類型(解答表現タイプ)などがある。質問応答装置は、どのような質問の言語表現がどのような解答表現を要求しているかという対応関係を参照して、入力した質問の解答の解答タイプを推定する。質問応答装置は、例えば、入力した質問が「日本の面積はどのくらいですか」である場合には、所定の対応関係を参照して、質問中の「どのくらい」という表現から解答タイプは「数値表現」であると推定する。また、質問が「日本の首相はだれですか」という場合には、質問中の「だれ」という表現から、解答タイプは「固有名詞(人名)」であると推定する。



文書検索処理は、質問からキーワードを取り出し、このキーワードを用いて解答を検索する対象となっている文書データ群を検索し、解答が記述されていると考えられる文書データを抽出する処理である。質問応答装置は、例えば、入力された質問が「日本の首都はどこですか」である場合に、質問から「日本」および「首都」をキーワードとして抽出し、検索対象の文書データ群から、キーワード「日本」および「首都」を含む文書データを検索する。



解答抽出処理は、文書検索処理で抽出されたキーワードを含む文書データから、推定した解答タイプに適合する言語表現を抽出し、解答として出力する処理である。質問応答装置は、例えば、文書検索処理において検索されたキーワード「日本」および「首都」を含む文書データから、解答表現推定処理において推定した解答タイプ「固有名詞(地名)」に適合する言語表現「東京」を抽出して解答とする。



前記のような処理を行うことにより、質問応答装置は、質問「日本の首都はどこですか」に対して解答「東京」を出力する。



なお、質問応答装置(または質問応答システム)に関する具体的な従来技術として、例えば、下記の非特許文献1に、複数の記事を使って解答の推定を行う質問応答システムにおいて、複数の記事から得られた解答の候補の得点を少しずつ減らしながら加算し、合計点が最も高い候補を解答として出力する技術について記載されている。
【非特許文献1】
村田真樹,井佐原均,質問応答システムにおける逓減加点法に基づく複数記事情報の利用,情報処理学会自然言語処理研究会 2004-NL-160,2004年.九州大学.

産業上の利用分野



本発明は、コンピュータによる自然言語処理システムとして、自然言語で表現された質問に対する解答を出力する質問応答技術に関し、特に、入力されたキーワードをキーワード抽出技術によって増加させ、増加したキーワードによって構成される複数の質問に対する解を自動的に求めて出力する質問応答装置、質問応答方法および質問応答プログラムに関する。





質問応答装置とは、自然言語による質問を入力すると、その解答そのものを出力する装置である。例えば、「パーキンソン病の兆候は脳のどの部分にある細胞の死が関係していますか。」という質問を入力すると、Web、新聞記事、事典などのデータを含む大量の電子化テキストから「パーキンソン病は、中脳の黒質にあるメラニン細胞が変性し、黒質細胞内で作られる神経伝達物質のドーパミンがなくなり発病する、とされている。」といった文を探し出し、「黒質」と的確に解答を出力する。





質問応答装置は、論理式やデータベースからではなく、自然言語で記述された普通の文(テキストデータ)から解答を取り出すことができるため、大量の既存の文書データを利用することができる。また、質問応答装置は、キーワードで検索された記事から使用者自らが解答を探す必要がある情報検索システムなどと異なり、解答自体を出力する。そのため、使用者は、より早く解答の情報を得ることができる。このように質問応答装置は有用であるため、より使いやすい実用的な質問応答装置の実現が期待されている。

特許請求の範囲 【請求項1】
第1のキーワード自体が複数のキーワードであり,かつ,第2のキーワード自体が複数のキーワードであり,第1のキーワード,第2キーワードが入力される構成であり,第1のキーワードと第2のキーワードから構成される自然言語で表現された質問データに対する解答とともに,第1のキーワードを増加して得る第3のキーワードと,第2のキーワードを増加して得る第4のキーワードとから構成される自然言語で表現された質問データに対する解答を出力する質問応答装置であって,
複数のキーワードが入力キーワードとして入力されるキーワード入力手段と,
前記入力キーワードに基づいて,前記入力キーワードの数より多いキーワードを抽出して出力キーワードとして出力するキーワード増加手段と,
前記キーワード増加手段により第1のキーワードを入力キーワードとして用いて増加して得た出力キーワードである前記第3のキーワードと,前記キーワード増加手段により第2のキーワードを入力キーワードとして用いて増加して得た出力キーワードである前記第4のキーワードとによって構成される質問に対する解答の候補である解答候補を,予め記憶された解答候補の検索対象である文書データ群から抽出する解答候補抽出手段と,
前記抽出された各解答候補が質問と対応付けられた表を解答表として出力する解答表出力手段とを備え,
前記キーワード増加手段は,
前記入力キーワードをキーワード抽出用の文書データが格納されたキーワード抽出用データベースで全文検索し,前記入力キーワードのうちの複数のキーワードの検索結果において前記複数のキーワードの前後に出現する文字列をパターンとして抽出するパターン抽出手段と,
前記パターン抽出手段で抽出したパターンを前記キーワード抽出用データベースで全文検索し,前記パターンに囲まれた表現を抽出し,前記抽出した表現を出力キーワードとして出力するキーワード抽出手段とを備える,
ことを特徴とする質問応答装置。

【請求項2】
請求項1に記載の質問応答装置において,
前記キーワード増加手段は,
前記入力された第1のキーワードに基づいて,第3のキーワードを出力キーワードとして出力し,前記入力された第2のキーワードに基づいて,第4のキーワードを出力キーワードとして出力し,
前記解答候補抽出手段は,予め用意された問題とその問題に対する解答の組の多数のセットを用いて,どういう問題のときにどういう解答になるかを学習し,その学習結果に基づいて,前記出力された第3のキーワードと第4のキーワードとによって構成される質問に対する解答の候補である解答候補を抽出する
ことを特徴とする質問応答装置。

【請求項3】
請求項1に記載の質問応答装置において,
前記キーワード増加手段は,
前記入力された第1のキーワードに基づいて,第3のキーワードを出力キーワードとして出力し,前記入力された第2のキーワードに基づいて,第4のキーワードを出力キーワードとして出力し,
前記解答候補抽出手段は,予め記憶手段中に格納された大量の文書データ群中から前記出力された第3のキーワードと第4のキーワードを含む文書データを取り出し,取り出された文書データの言語表現から,前記大量の文書データ群中に出現する頻度を用いて,前記出力された第3のキーワードと第4のキーワードとによって構成される質問に対する解答候補を抽出する
ことを特徴とする質問応答装置。

【請求項4】
請求項1に記載の質問応答装置において,
前記第2のキーワードに対応付けられた疑問代名詞が入力される疑問代名詞入力手段と,
前記疑問代名詞入力手段により入力された疑問代名詞に基づいて,前記キーワード増加手段によって出力される出力キーワードによって構成される質問に対する解答の候補の言語表現の類型である解答タイプを推定する解答タイプ推定手段とを備え,
前記キーワード増加手段は,前記入力された第1のキーワードに基づいて,第3のキーワードを出力キーワードとして出力し,前記入力された第2のキーワードを出力キーワードとして出力し,
前記解答候補抽出手段は,前記解答候補の検索対象である文書データ群から,前記キーワード増加手段によって出力された第3のキーワードと第2のキーワードとを含む文書データを検索し,この検索処理で抽出された文書データから,前記解答タイプ推定手段によって推定された解答タイプに適合する言語表現を,前記第3のキーワードと第2のキーワードとによって構成される質問の解答候補として抽出する
ことを特徴とする質問応答装置。

【請求項5】
請求項1に記載の質問応答装置において,
予め定められた前記第2のキーワードに対応付けられた疑問代名詞に基づいて,前記キーワード増加手段によって出力される出力キーワードによって構成される質問に対する解答の候補の言語表現の類型である解答タイプを推定する解答タイプ推定手段とを備え,
前記キーワード増加手段は,前記入力された第1のキーワードに基づいて,第3のキーワードを出力キーワードとして出力し,前記入力された第2のキーワードを出力キーワードとして出力し,
前記解答候補抽出手段は,前記解答候補の検索対象である文書データ群から,前記キーワード増加手段によって出力された第3のキーワードと第2のキーワードとを含む文書データを検索し,この検索処理で抽出された文書データから,前記解答タイプ推定手段によって推定された解答タイプに適合する言語表現を,前記第3のキーワードと第2のキーワードとによって構成される質問の解答候補として抽出する
ことを特徴とする質問応答装置。

【請求項6】
請求項1に記載の質問応答装置において,
前記キーワード増加手段は,
前記入力された第1のキーワードに基づいて,第3のキーワードを出力キーワードとして出力し,前記入力された第2のキーワードに基づいて,第4のキーワードを出力キーワードとして出力し,
前記解答候補抽出手段は,前記解答候補の検索対象である文書データ群から,前記キーワード増加手段によって出力された第3のキーワードと第4のキーワードとを含む文書データを検索し,この検索処理で抽出された文書データから,予め定められた解答タイプに適合する言語表現を,前記出力された第3のキーワードと第4のキーワードとによって構成される質問の解答候補として抽出する
ことを特徴とする質問応答装置。

【請求項7】
請求項1に記載の質問応答装置において,
前記キーワード増加手段によって出力される出力キーワードによって構成される質問に対する解答の候補の言語表現の類型である解答タイプであって,前記キーワード入力手段に入力された第2のキーワードに対応付けられた解答タイプが入力される解答タイプ入力手段を備え,
前記キーワード増加手段は,前記入力された第1のキーワードに基づいて,第3のキーワードを出力キーワードとして出力し,前記入力された第2のキーワードに基づいて,第4のキーワードを出力キーワードとして出力し,
前記第2のキーワードのうち前記出力された第4のキーワードに類似するものを,前記第4のキーワードのそれぞれについて,類似キーワードとして決定する類似キーワード決定手段を備え,
前記解答候補抽出手段は,前記解答候補の検索対象である文書データ群から,前記キーワード増加手段によって出力された第3のキーワードと第4のキーワードを含む文書データを検索し,この検索処理で抽出された文書データから,前記出力された第4のキーワードが類似する類似キーワードに対応付けられて前記解答タイプ入力手段に入力された解答タイプに適合する言語表現を,前記出力された第3のキーワードと第4のキーワードとによって構成される質問の解答候補として抽出する
ことを特徴とする質問応答装置。

【請求項8】
請求項7に記載の質問応答装置において,
前記類似キーワード決定手段は,
予め記憶手段内に格納された大量の文書データ群中から,前記キーワード抽出手段によって出力された第4のキーワードと共起して出現する語である共起語を抽出するとともに,前記第4のキーワードのそれぞれについて,前記抽出された各共起語と共起して前記文書データ群中に出現する回数を要素とするベクトルである共起ベクトルを求め,
各第4のキーワードについての共起ベクトルと前記キーワード入力手段に入力された第2のキーワードと同一の第4のキーワードについての共起ベクトルとの類似の度合いを求め,求められた類似の度合いに基づいて決まる,前記各第4のキーワードと類似する第2のキーワードと同一の第4のキーワードを,前記類似キーワードとする
ことを特徴とする質問応答装置。

【請求項9】
第1のキーワード自体が複数のキーワードであり,かつ,第2のキーワード自体が複数のキーワードであり,第1のキーワード,第2キーワードが入力される構成であり,第1のキーワードと第2のキーワードから構成される自然言語で表現された質問データに対する解答とともに,第1のキーワードを増加して得る第3のキーワードと,第2のキーワードを増加して得る第4のキーワードとから構成される自然言語で表現された質問データに対する解答を出力する質問応答方法であって,
複数のキーワードで構成される第1のキーワードと複数のキーワードで構成される第2のキーワードとを入力するステップと,
入力された前記第1のキーワードと第2のキーワードに基づいて,前記第1のキーワードと第2のキーワードを構成するそれぞれのキーワードの数を増加した第3のキーワードと第4のキーワードを抽出して出力するステップと,
前記第3のキーワードと第4のキーワードを含む増加した複数の出力キーワードによって構成される質問に対する解答の候補である解答候補を,予め記憶された解答候補の検索対象である文書データ群から抽出するステップと,
前記抽出された各解答候補と質問とが対応付けられた表を解答表として出力するステップとを有し,
前記入力キーワードの数より多いキーワードを抽出するステップは,
前記入力キーワードをキーワード抽出用の文書データが格納されたキーワード抽出用データベースで全文検索し,前記入力キーワードのうちの複数のキーワードの検索結果において前記複数のキーワードの前後に出現する文字列をパターンとして抽出するステップと,
前記抽出したパターンを前記キーワード抽出用データベースで全文検索し,前記パターンに囲まれた表現を抽出し,前記抽出した表現を出力キーワードとして出力するステップとを備える,
ことを特徴とする質問応答方法。

【請求項10】
第1のキーワード自体が複数のキーワードであり,かつ,第2のキーワード自体が複数のキーワードであり,第1のキーワード,第2キーワードが入力される構成であり,第1のキーワードと第2のキーワードから構成される自然言語で表現された質問データに対する解答とともに,第1のキーワードを増加して得る第3のキーワードと,第2のキーワードを増加して得る第4のキーワードとから構成される自然言語で表現された質問データに対する解答を出力する質問応答装置が備えるコンピュータに実行させるための質問応答プログラムであって,
前記コンピュータに,
複数のキーワードで構成される第1のキーワードと複数のキーワードで構成される第2のキーワードとを入力する処理と,
入力された前記第1のキーワードと第2のキーワードに基づいて,前記第1のキーワードと第2のキーワードを構成するそれぞれのキーワードの数を増加した第3のキーワードと第4のキーワードを抽出して出力する処理と,
前記第3のキーワードと第4のキーワードを含む増加した複数の出力キーワードによって構成される質問に対する解答の候補である解答候補を,予め記憶された解答候補の検索対象である文書データ群から抽出する処理と,
前記抽出された各解答候補と質問とが対応付けられた表を解答表として出力する処理とを実行させると共に,
前記入力キーワードの数より多いキーワードを抽出する処理は,
前記入力キーワードをキーワード抽出用の文書データが格納されたキーワード抽出用データベースで全文検索し,前記入力キーワードのうちの複数のキーワードの検索結果において前記複数のキーワードの前後に出現する文字列をパターンとして抽出する処理と,
前記抽出したパターンを前記キーワード抽出用データベースで全文検索し,前記パターンに囲まれた表現を抽出し,前記抽出した表現を出力キーワードとして出力する処理とを実行させる
ことを特徴とする質問応答プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2005354207thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close