TOP > 国内特許検索 > 質問応答システムおよび質問応答処理方法

質問応答システムおよび質問応答処理方法 コモンズ

国内特許コード P140010740
整理番号 03-108
掲載日 2014年7月7日
出願番号 特願2003-391938
公開番号 特開2005-157524
登録番号 特許第3981734号
出願日 平成15年11月21日(2003.11.21)
公開日 平成17年6月16日(2005.6.16)
登録日 平成19年7月13日(2007.7.13)
発明者
  • 熊本 忠彦
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 質問応答システムおよび質問応答処理方法 コモンズ
発明の概要 【課題】 質問応答システムにおいて、使用者が解答を解答タイプごとに見比べることができるように解答を出力する。
【解決手段】 質問文入力部11は自然言語で表現された質問文を入力する。文書検索部13は質問文からキーワードを抽出し、文書データベース20からキーワードを含む文書データを検索抽出する。解答候補抽出部14は、検索抽出した文書データから解答となりうる言語表現を解答候補として抽出する。解答タイプ判定部15は、解答候補の解答タイプを判定する。解答表出力部16は、解答候補を解答タイプをもとに分類し、所定以上の評価の解答候補の全部または一部を解答タイプごとに表形式で示す解答表を出力する。
【選択図】図1
従来技術、競合技術の概要


一般的な質問応答システムは、おおまかに、解答表現推定処理、文書検索処理、解答抽出処理という3つの処理手段で構成されている(非特許文献1および非特許文献2参照)。



解答表現推定処理は、入力した質問文中の疑問代名詞の表現などにもとづいて解答表現を推定する処理である。解答表現とは、所望される解答の言語表現の類型であって、解答となる言語表現の意味にもとづいた類型(解答タイプ)、解答となる言語表現の表記にもとづいた類型(解答表現タイプ)などがある。質問応答システムは、どのような質問文の言語表現がどのような解答表現を要求しているかという対応関係を参照して、入力した質問文の解答の解答タイプを推定する。質問応答システムは、例えば、入力した質問文が「日本の面積はどのくらいですか」である場合には、所定の対応関係を参照して、質問文中の「どのくらい」という表現から解答タイプは「数値表現」であると推定する。また、質問文が「日本の首相はだれですか」という場合には、質問文中の「だれ」という表現から、解答タイプは「固有名詞(人名)」であると推定する。



文書検索処理は、質問文からキーワードを取り出し、このキーワードを用いて解答を検索する対象となっている文書データ群を検索し、解答が記述されていると考えられる文書データを抽出する処理である。質問応答システムは、例えば、入力の質問文が「日本の首都はどこですか」である場合に、質問文から「日本」および「首都」をキーワードとして抽出し、検索対象の文書データ群から、キーワード「日本」および「首都」を含む文書データを検索する。



解答抽出処理は、文書検索処理で抽出されたキーワードを含む文書データから、推定した解答タイプに適合する言語表現を抽出し、解答として出力する処理である。質問応答システムは、例えば、文書検索処理において検索されたキーワード「日本」および「首都」を含む文書データから、解答表現推定処理において推定した解答タイプ「固有名詞(地名)」に適合する言語表現「東京」を抽出して解答とする。



前記のような処理を行うことにより、質問応答システムは、質問文「日本の首都はどこですか」に対して解答「東京」を出力する。
【非特許文献1】
前田英作、「パターン認識/統計的学習からみた質問応答」、言語理解とコミュニケーション研究会 講習会資料、電子情報通信学会 言語理解とコミュニケーション研究会(NLC)、2003年1月27日、p.29-64
【非特許文献2】
Masaki Murata,Masao Utiyama,and Hitoshi Isahara、”A Question-Answering System Using Unit Estimation and Probabilistic Near-Terms IR”、National Institute of Informatics NTCIR Workshop3 Meeting QAC1、2002年10月8日

産業上の利用分野



本発明は、コンピュータによる自然言語処理システムとして、自然言語で表現された質問文に対する解答を出力する質問応答システムに関する。





質問応答システムとは、自然言語による質問文を入力すると、その解答そのものを出力するシステムである。例えば、「パーキンソン病の兆候は脳のどの部分にある細胞の死が関係していますか。」という質問を入力すると、Web、新聞記事、事典などのデータを含む大量の電子化テキストから「パーキンソン病は、中脳の黒質にあるメラニン細胞が変性し、黒質細胞内で作られる神経伝達物質のドーパミンがなくなり発病する、とされている。」といった文を探し出し、「黒質」と的確に解答を出力する。





質問応答システムは、論理式やデータベースからではなく、自然言語で記述された普通の文(テキストデータ)から解答を取り出すことができるため、大量の既存の文書データを利用することができる。また、質問応答システムは、キーワードで検索された記事から使用者自らが解答を探す必要がある情報検索システムなどと異なり、解答自体を出力する。そのため、使用者は、より早く解答の情報を得ることができる。このように質問応答システムは有用であるため、より使いやすい実用的なシステムの実現が期待されている。

特許請求の範囲 【請求項1】
自然言語で表現された質問文データを入力し、解答の検索対象である文書データ群から質問文データに対する解答を出力する質問応答システムにおいて、
入力された質問文データからキーワードを抽出し、前記文書データ群から前記キーワードを含む文書データを検索抽出する文書検索手段と、
前記文書データから解答となりうる言語表現を解答候補として抽出する解答候補抽出手段と、
解答候補の言語表現についての表記的または意味的な類型を示す2以上の解答タイプを記憶しておき、前記質問文データに対する解答の解答タイプとしてユーザによって選択入力された解答タイプを取得する解答タイプ入力手段と、
前記解答候補各々が、前記2以上の解答タイプのどの解答タイプであるかを判定する解答タイプ判定手段と、
前記判定された解答タイプをもとに前記解答候補を分類し、前記解答タイプごとに分類された解答候補の全部または一部を、前記2以上の解答タイプを見出し項目として構成し、かつ前記入力された解答タイプの見出しを先頭項目として配置した表形式データとして出力する解答表出力手段とを備える
ことを特徴とする質問応答システム。

【請求項2】
自然言語で表現された質問文データを入力し、解答の検索対象である文書データ群から質問文データに対する解答を出力する質問応答システムにおいて、
入力された質問文データからキーワードを抽出し、前記文書データ群から前記キーワードを含む文書データを検索抽出する文書検索手段と、
前記文書データから解答となりうる言語表現を解答候補として抽出する解答候補抽出手段と、
解答候補の言語表現についての表記的または意味的な類型を示す2以上の解答タイプを記憶しておき、前記質問文データの言語表現を解析し、確率にもとづいた機械学習法であって順位付けが可能な数値を算出できるアルゴリズムを用いて、前記質問文データに対する解答が前記解答タイプであることの確信度を推定する解答タイプ推定手段と、
前記解答候補各々が、前記2以上の解答タイプのどの解答タイプであるかを判定する解答タイプ判定手段と、
前記判定された解答タイプをもとに前記解答候補を分類し、前記解答タイプごとに分類された解答候補の全部または一部を、前記2以上の解答タイプを見出し項目として構成し、かつ前記解答タイプ推定手段で算出された確信度の高い順に対応する解答タイプの見出し項目を配置した表形式データとして出力する解答表出力手段とを備える
ことを特徴とする質問応答システム。

【請求項3】
前記解答タイプ判定手段は、解答候補の言語表現と前記2以上の解答タイプとの対応関係を示す学習データが与えられた機械学習法によるアルゴリズムを用いて、前記解答候補各々が前記2以上の解答タイプのどの解答タイプになりやすいかを判定する
ことを特徴とする請求項1または請求項2のいずれか一項に記載の質問応答システム。

【請求項4】
前記解答表出力手段は、前記解答タイプごとに前記解答タイプ推定手段によって推定された確信度を表示した前記表形式データを作成する
ことを特徴とする請求項2に記載の質問応答システム。

【請求項5】
文書検索手段、解答候補抽出手段、解答タイプ入力手段、解答タイプ判定手段、および解答表出力手段を備えるコンピュータが、自然言語で表現された質問文データを入力し、解答の検索対象である文書データ群から質問文データに対する解答を出力する質問応答処理方法において、
前記文書検索手段が、入力された質問文データからキーワードを抽出し、前記文書データ群から前記キーワードを含む文書データを検索抽出する処理過程と、
前記解答候補抽出手段が、前記文書データから解答となりうる言語表現を解答候補として抽出する処理過程と、
前記解答タイプ入力手段が、解答候補の言語表現についての表記的または意味的な類型を示す2以上の解答タイプを記憶しておき、前記質問文データに対する解答の解答タイプとしてユーザによって選択入力された解答タイプを取得する処理過程と、
前記解答タイプ判定手段が、前記解答候補各々が前記2以上の解答タイプのどの解答タイプであるかを判定する処理過程と、
前記解答表出力手段が、前記判定された解答タイプをもとに前記解答候補を分類し、前記解答タイプごとに分類された解答候補の全部または一部を、前記2以上の解答タイプを見出し項目として構成し、かつ前記入力された解答タイプの見出しを先頭項目として配置する表形式データとして出力する処理過程とを備える
ことを特徴とする質問応答処理方法。

【請求項6】
文書検索手段、解答候補抽出手段、解答タイプ推定手段、解答タイプ判定手段、および解答表出力手段を備えるコンピュータが、自然言語で表現された質問文データを入力し、解答の検索対象である文書データ群から質問文データに対する解答を出力する質問応答処理方法において、
前記文書検索手段が、入力された質問文データからキーワードを抽出し、前記文書データ群から前記キーワードを含む文書データを検索抽出する処理過程と、
前記解答候補抽出手段が、前記文書データから解答となりうる言語表現を解答候補として抽出する処理過程と、
前記解答タイプ推定手段が、解答候補の言語表現についての表記的または意味的な類型を示す2以上の解答タイプを記憶しておき、前記質問文データの言語表現を解析し、確率にもとづいた機械学習法によるアルゴリズムを用いて、前記質問文データに対する解答が前記解答タイプであることの確信度を推定する処理過程と、
前記解答タイプ判定手段が、前記解答候補各々が前記2以上の解答タイプのどの解答タイプであるかを判定する処理過程と、
前記解答表出力手段が、前記判定された解答タイプをもとに前記解答候補を分類し、前記解答タイプごとに分類された解答候補の全部または一部を、前記2以上の解答タイプを見出し項目として構成し、かつ前記解答タイプ推定手段によって算出された確信度の高い順に対応する解答タイプの見出し項目を配置した表形式データとして出力する処理過程とを備える
ことを特徴とする質問応答処理方法。

【請求項7】
前記コンピュータは、解答タイプ判定手段を備え、
前記解答タイプ判定手段は、解答候補の言語表現と前記2以上の解答タイプとの対応関係を示す学習データが与えられた機械学習法によるアルゴリズムを用いて、前記解答候補各々が前記2以上の解答タイプのどの解答タイプになりやすいかを判定する
ことを特徴とする請求項または請求項のいずれか一項に記載の質問応答処理方法。

【請求項8】
前記解答表出力手段が行う処理過程では、
前記解答タイプごとに前記解答タイプ推定手段によって推定された確信度を表示した前記表形式データを作成する
ことを特徴とする請求項6に記載の質問応答処理方法。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2003391938thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close