TOP > 国内特許検索 > 質問応答方法及びシステム

質問応答方法及びシステム コモンズ

国内特許コード P140010592
整理番号 07-17
掲載日 2014年6月3日
出願番号 特願2007-165692
公開番号 特開2009-003814
登録番号 特許第5213098号
出願日 平成19年6月22日(2007.6.22)
公開日 平成21年1月8日(2009.1.8)
登録日 平成25年3月8日(2013.3.8)
発明者
  • 呉 友政
  • 柏岡 秀紀
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 質問応答方法及びシステム コモンズ
発明の概要 【課題】オープンドメインな質問応答システムを実現する上で、その解答の正答率を向上させる。
【解決手段】質問文から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、検索した各ウェブページから、アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとを有する。
【選択図】図2
従来技術、競合技術の概要


近年におけるインターネットの普及に伴い、ユーザは、検索エンジンを利用して所望のウェブページをサーチし、そこから知見を得ることが可能となってきている。特にユーザが知りたい情報について検索エンジンを介してウェブページを検索する場合、検索クエリーとして、キーワードを入力することにより、当該キーワードに関連するスニペットを持つウェブページが自動抽出され、これを検索リストとして表示されることになる。ユーザは、かかる検索リストに表示されたウェブページ一覧から所望のウェブページにアクセスし、知りたい情報を取得することが可能となる。



ところで、現在におけるウェブページの検索方法では、検索リストに表示されたウェブページ一覧から、所望の情報が記載されている、真のウェブページをユーザ自身が順次アクセスしながら見つけ出す必要があり、労力の負担が増大し、また検索に要する時間が長期化してしまうという問題点があった。



このため、このような検索エンジンを介して検索リストを表示する代替として、ユーザ自身が知りたい情報を自然な文章として端末を介して入力し、かかる質問文に対する応答を直接出力する質問応答システムが従来から望まれていた。このため、かかる質問応答システムに関する研究も従来より行われていた。



従来の質問応答システムは、4つのカテゴリーに分類することができる。



先ず、質問文の全てのキーワードと、解答候補との間で類似性を示す距離を求め、これに基づいて解答候補から正解を選び出すモデルが提案されている。しかし、このモデルでは、質問と解答候補が依拠する文章とが表面上一致していないだけで、正解を出すことができなくなるという問題点があった。



また、質問文を最初に予め定義したカテゴリーに分類し、これをオフラインの下で学習したアンサーパターンを利用して正解を抽出するモデルも提案されている。しかし、このモデルは、予め定義した何種類かの質問のタイプに対しては高い正確性を出すことが可能であるが、オープンドメインな質問応答のための質問のタイプを定義するのが困難であり、あらゆるタイプの質問に対して対応することができない。



自然言語処理(NLP:Natural Language Processing)に基づくモデルは、ユーザの質問を解析し、応答に相当する文を意味的な表現へと繋げ、そして意味的にマッチングするものを解答として見つけ出すものである。このモデルは、TREC(Text REtrieval Conference)のワークショップにおいてよく実演されるものであるが、NLPツールの高パフォーマンスに大きく依存するものである。このため、処理時間が長時間に亘るとともに、作業量の増加が無視できない。



さらに、マシーンラーニングに基づくモデルも研究されている(例えば、特許文献1参照。)が、未だその有用性は確立されていない。



即ち、これらの開示技術は、手入力された質問と解答のペアが所定量必要になるという問題点がある。また、マシーンラーニング技術に特化した上記ペアを収集するのは多大な労力が必要になり、コスト増につながる。
【非特許文献1】
Jun Suzuki,Yutaka Sasaki,Eisaku Maeda.SVM Answer Selection for Open-Domain Question Answering,In Proc.of Coling-2002,pp974~980(2002).

産業上の利用分野



ユーザから入力された質問文に対して応答を出力可能な質問応答方法及びシステム、プログラム並びに記録媒体に関する。

特許請求の範囲 【請求項1】
ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、
上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、
上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、
上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、
上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとを有し、
上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、
上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、
上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、
上記WWFSは、以下のISF値により重み付けされていること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とする質問応答方法。

【請求項2】
上記分類ステップは、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出すること
を特徴とする請求項1記載の質問応答方法。

【請求項3】
ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析手段と、
上記質問文解析手段により抽出されたキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索手段と、
上記検索ステップにより検索された各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出手段と、
上記解答候補抽出手段により抽出された各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリング手段と、
上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類手段とを備え、
上記分類手段は、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、
上記分類手段は、上記SBFSを、上記キーワードのbi-gramの一致度に基づくものとし、
上記BMFSを、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものとし、
上記WWFSを、以下のISF値により重み付けすること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とする質問応答システム。

【請求項4】
上記分類手段は、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出すること
を特徴とする請求項3記載の質問応答システム。

【請求項5】
上記質問文解析手段と、上記検索手段と、上記解答候補抽出手段と、上記クラスタリング手段と、上記分類手段とを備える制御装置と、当該制御装置に対して通信網を介して情報を送受信可能な複数のユーザ用端末装置とを備え、
上記ユーザ用端末装置は、ユーザからの上記質問文の入力を受け付け、これを通信網を介して上記制御装置における上記質問文解析手段へと送信するとともに、当該制御装置における上記分類手段から出力される上記応答を上記通信網を介して受信し、これをユーザに表示すること
を特徴とする請求項3又は4記載の質問応答システム。

【請求項6】
ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、
上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、
上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、
上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、
上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとをコンピュータに実行させ、
上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、
上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、
上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、
上記WWFSは、以下のISF値により重み付けされていること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とするプログラム。

【請求項7】
上記分類ステップは、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出すること
を特徴とする請求項6記載のプログラム。

【請求項8】
請求項7項記載のプログラムが記録されていることを特徴とする記録媒体。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2007165692thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close