TOP > 国内特許検索 > 質問応答方法及びシステム > 明細書

明細書 :質問応答方法及びシステム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5213098号 (P5213098)
公開番号 特開2009-003814 (P2009-003814A)
登録日 平成25年3月8日(2013.3.8)
発行日 平成25年6月19日(2013.6.19)
公開日 平成21年1月8日(2009.1.8)
発明の名称または考案の名称 質問応答方法及びシステム
国際特許分類 G06F  17/30        (2006.01)
FI G06F 17/30 330C
G06F 17/30 170A
G06F 17/30 210D
請求項の数または発明の数 8
外国語出願 外国語出願
全頁数 12
出願番号 特願2007-165692 (P2007-165692)
出願日 平成19年6月22日(2007.6.22)
審査請求日 平成22年6月9日(2010.6.9)
特許権者または実用新案権者 【識別番号】301022471
【氏名又は名称】独立行政法人情報通信研究機構
発明者または考案者 【氏名】呉 友政
【氏名】柏岡 秀紀
個別代理人の代理人 【識別番号】100120868、【弁理士】、【氏名又は名称】安彦 元
審査官 【審査官】打出 義尚
参考文献・文献 特開2006-244102(JP,A)
特開平09-231238(JP,A)
特開2003-150624(JP,A)
永田昌明、外2名,日本語自然文検索システム Web Answers,言語処理学会第12回年次大会発表論文集,言語処理学会,2006年 3月13日,p.320-323
佐々木裕,SVMを用いた学習型質問応答システムSAIQA-II,情報処理学会論文誌,日本,社団法人情報処理学会,2004年 2月15日,第45巻,第2号,pp.635-646
調査した分野 G06F 17/30
特許請求の範囲 【請求項1】
ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、
上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、
上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、
上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、
上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとを有し、
上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、
上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、
上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、
上記WWFSは、以下のISF値により重み付けされていること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とする質問応答方法。
【請求項2】
上記分類ステップは、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出すること
を特徴とする請求項1記載の質問応答方法。
【請求項3】
ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析手段と、
上記質問文解析手段により抽出されたキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索手段と、
上記検索ステップにより検索された各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出手段と、
上記解答候補抽出手段により抽出された各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリング手段と、
上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類手段とを備え、
上記分類手段は、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、
上記分類手段は、上記SBFSを、上記キーワードのbi-gramの一致度に基づくものとし、
上記BMFSを、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものとし、
上記WWFSを、以下のISF値により重み付けすること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とする質問応答システム。
【請求項4】
上記分類手段は、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出すること
を特徴とする請求項3記載の質問応答システム。
【請求項5】
上記質問文解析手段と、上記検索手段と、上記解答候補抽出手段と、上記クラスタリング手段と、上記分類手段とを備える制御装置と、当該制御装置に対して通信網を介して情報を送受信可能な複数のユーザ用端末装置とを備え、
上記ユーザ用端末装置は、ユーザからの上記質問文の入力を受け付け、これを通信網を介して上記制御装置における上記質問文解析手段へと送信するとともに、当該制御装置における上記分類手段から出力される上記応答を上記通信網を介して受信し、これをユーザに表示すること
を特徴とする請求項3又は4記載の質問応答システム。
【請求項6】
ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、
上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、
上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、
上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、
上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとをコンピュータに実行させ、
上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、
上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、
上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、
上記WWFSは、以下のISF値により重み付けされていること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とするプログラム。
【請求項7】
上記分類ステップは、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出すること
を特徴とする請求項6記載のプログラム。
【請求項8】
請求項7項記載のプログラムが記録されていることを特徴とする記録媒体。
発明の詳細な説明 【技術分野】
【0001】
ユーザから入力された質問文に対して応答を出力可能な質問応答方法及びシステム、プログラム並びに記録媒体に関する。
【背景技術】
【0002】
近年におけるインターネットの普及に伴い、ユーザは、検索エンジンを利用して所望のウェブページをサーチし、そこから知見を得ることが可能となってきている。特にユーザが知りたい情報について検索エンジンを介してウェブページを検索する場合、検索クエリーとして、キーワードを入力することにより、当該キーワードに関連するスニペットを持つウェブページが自動抽出され、これを検索リストとして表示されることになる。ユーザは、かかる検索リストに表示されたウェブページ一覧から所望のウェブページにアクセスし、知りたい情報を取得することが可能となる。
【0003】
ところで、現在におけるウェブページの検索方法では、検索リストに表示されたウェブページ一覧から、所望の情報が記載されている、真のウェブページをユーザ自身が順次アクセスしながら見つけ出す必要があり、労力の負担が増大し、また検索に要する時間が長期化してしまうという問題点があった。
【0004】
このため、このような検索エンジンを介して検索リストを表示する代替として、ユーザ自身が知りたい情報を自然な文章として端末を介して入力し、かかる質問文に対する応答を直接出力する質問応答システムが従来から望まれていた。このため、かかる質問応答システムに関する研究も従来より行われていた。
【0005】
従来の質問応答システムは、4つのカテゴリーに分類することができる。
【0006】
先ず、質問文の全てのキーワードと、解答候補との間で類似性を示す距離を求め、これに基づいて解答候補から正解を選び出すモデルが提案されている。しかし、このモデルでは、質問と解答候補が依拠する文章とが表面上一致していないだけで、正解を出すことができなくなるという問題点があった。
【0007】
また、質問文を最初に予め定義したカテゴリーに分類し、これをオフラインの下で学習したアンサーパターンを利用して正解を抽出するモデルも提案されている。しかし、このモデルは、予め定義した何種類かの質問のタイプに対しては高い正確性を出すことが可能であるが、オープンドメインな質問応答のための質問のタイプを定義するのが困難であり、あらゆるタイプの質問に対して対応することができない。
【0008】
自然言語処理(NLP:Natural Language Processing)に基づくモデルは、ユーザの質問を解析し、応答に相当する文を意味的な表現へと繋げ、そして意味的にマッチングするものを解答として見つけ出すものである。このモデルは、TREC(Text REtrieval Conference)のワークショップにおいてよく実演されるものであるが、NLPツールの高パフォーマンスに大きく依存するものである。このため、処理時間が長時間に亘るとともに、作業量の増加が無視できない。
【0009】
さらに、マシーンラーニングに基づくモデルも研究されている(例えば、特許文献1参照。)が、未だその有用性は確立されていない。
【0010】
即ち、これらの開示技術は、手入力された質問と解答のペアが所定量必要になるという問題点がある。また、マシーンラーニング技術に特化した上記ペアを収集するのは多大な労力が必要になり、コスト増につながる。

【非特許文献1】Jun Suzuki,Yutaka Sasaki,Eisaku Maeda.SVM Answer Selection for Open-Domain Question Answering,In Proc.of Coling-2002,pp974~980(2002).
【発明の開示】
【発明が解決しようとする課題】
【0011】
そこで、本発明は、上述した問題点に鑑みて案出されたものであり、オープンドメインな質問応答システムを実現する上で、その解答の正答率を向上させることが可能な質問応答方法及びシステム、プログラム並びに記録媒体を提供することにある。
【課題を解決するための手段】
【0012】
本発明を適用した質問応答方法は、ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとを有し、上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、上記WWFSは、以下のISF値により重み付けされていること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数、
を特徴とする。
【0013】
本発明を適用した質問応答システムは、ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析手段と、上記質問文解析手段により抽出されたキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索手段と、上記検索ステップにより検索された各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出手段と、上記解答候補抽出手段により抽出された各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリング手段と、上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類手段とを備え、上記分類手段は、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、上記分類手段は、上記SBFSを、上記キーワードのbi-gramの一致度に基づくものとし、上記BMFSを、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものとし、上記WWFSを、以下のISF値により重み付けすること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とする。
【0014】
本発明を適用したプログラムは、ユーザから入力された質問文を構成する単語から、キーワードと、質問の種別を規定するアンサータイプとを特定する質問文解析ステップと、上記質問文解析ステップにおいて抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する検索ステップと、上記検索ステップにおいて検索した各ウェブページから、上記アンサータイプに基づいて解答候補を順次抽出する解答候補抽出ステップと、上記解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする、クラスタリングステップと、上記トレーニングデータを解析することにより上記クラスタを分類し、更に上記トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する分類ステップとをコンピュータに実行させ、上記分類ステップは、上記トレーニングデータと上記質問文との単語重複度を示すSBFS(similarity-based feature set)、上記トレーニングデータと上記質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、上記トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出し、上記SBFSは、上記キーワードのbi-gramの一致度に基づくものであり、上記BMFSは、解答候補が質問文のbi-gramと一致したbi-gramを有するか否かに基づくものであり、上記WWFSは、以下のISF値により重み付けされていること
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wjが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wjが含まれているクラスタCiにおけるスニペットの数
を特徴とする。
【発明の効果】
【0015】
上述した構成からなる本発明では、後述する表1~3の結果から示されるように、オープンドメインな質問応答システムを実現する上で、その解答の正答率を向上させることが可能となる。
【発明を実施するための最良の形態】
【0016】
以下、本発明を実施するための最良の形態として、ユーザから入力された質問文に対して応答を出力可能な質問応答システムに監視、図面を参照しながら詳細に説明をする。
【0017】
本発明を適用した質問応答システム1は、図1に示すように、質問文を入力するユーザにより操作されるユーザ端末装置11と、このユーザ端末装置11により通信網12を介してそれぞれアクセス可能なウェブサーバ13と、このウェブサーバ13を制御するための制御装置14とを備えている。
【0018】
ユーザ端末装置11は、例えばパーソナルコンピュータ(PC)等が適用され、質問文を入力するためのマウスやキーボード等からなる操作部と、情報をユーザに対して表示するための、例えば液晶ディスプレイからなる表示部を備える。このユーザ端末装置11は、ユーザからの質問文の入力を受け付けた場合に、これを通信網12を介して制御装置14へと送信する。
【0019】
通信網12は、例えばウェブサーバ13とユーザ端末装置11とを電話回線を介して接続されるインターネット網を始め、TA/モデムと接続されるISDN(Integrated Services Digital Network)/B(broadband)-ISDN等のように、情報の双方向送受信を可能とした公衆通信網等である。
【0020】
また制御装置14も同様にコンピュータで構成されるものであり、相互にバスで接続されたCPU(Central Processing Unit)や、メモリ、固定ディスクと、通信網12を介してユーザ端末装置11との間で情報を送受信するための通信インターフェースとを備えている。実際に、本発明に係る質問応答システム1を実行するためのプログラムは、この制御装置14における固定ディスク等にインストールされることになる。また、このプログラムは、他のCD-ROM等に記録された記録媒体として具体化することも可能となる。
【0021】
制御装置14は、通信網12を介してユーザ端末装置11から受信した質問文を受けて、ウェブサーバ13へアクセスし、後述するような処理を実行することにより、上記質問文に対する応答を作り出し、通信網12を介してユーザ端末装置11へと送信する。ユーザ端末装置11は、送られてきた応答を液晶ディスプレイからなる表示部を介して表示する。
【0022】
次に、本発明を適用した質問応答システム1の動作について説明をする。
【0023】
図2は、質問応答システム1を実行する上でのフローチャートを示している。先ずステップS1において、ユーザからの質問文の入力を受け付ける。ちなみに、本発明は、オープンドメインの質問応答の実現を想定しているところ、ユーザは、言語や入力形式に支配されることなく、自然に質問したい内容を文章にし、これを入力していくことになる。このため、ユーザの入力すべき内容について、複雑なルールは特段存在せず、また高精度な言語解析技術も特段必要としない。
【0024】
この質問文は、文書検索のクエリーとなりえるキーワードの集合と、質問の種別を規程するアンサータイプから構成されることになる。例えば、「いつ潜水艦が沈んだか?」という質問文が入力された場合においてキーワードは、「潜水艦」、「沈む」に相当し、アンサータイプは、「いつ」に相当するものとなる。即ち、このキーワードは、質問文中に含まれる名詞、動詞等を規程する単語であり、アンサータイプは、時、場所、主体、数量等、実際にユーザが知りたいカテゴリを示すものである。また、ステップS2は、質問からキーワードを抽出し、また疑問詞に基づいて質問の解答タイプを分類する。
【0025】
次に、ステップS2へ移行し、上記ステップS1において抽出したキーワードを検索クエリーとし、当該キーワードに関連するウェブページを検索する。その結果、このステップS2においては、キーワードに関係するウェブページが順次検索されてくることになる。このステップS2においては、例えば検索エンジンにおけるスニペットの記載に基づいて検索を行うようにしてもよい。ちなみに、このステップS2において、上述した例の質問文が入力された場合には、「潜水艦」、「沈む」というキーワードに関係するウェブページが順次検索されてくることになる。
【0026】
次にステップS3へ移行し、ステップS2において検索した各ウェブページから、アンサータイプに基づいて解答候補を順次抽出する。即ち、アンサータイプとして、時、場所、主体、数量等の何れかがステップS1において抽出されているため、これに関係する解答候補を抽出してくることになる。このステップS3においては、例えば検索エンジンにおけるスニペットの記載から解答候補を抽出するようにしてもよい。ちなみに、このステップS3において、上述した例の質問文が入力された場合には、「いつ」に相当する時を表すアンサータイプに基づく解答候補を抽出してくることになる。
【0027】
次にステップS4へ移行し、クラスタリングを行う。このクラスタリングは、解答候補抽出ステップにおいて抽出した各解答候補に基づいて、候補選択スニペットをクラスタに割り当て、これをトレーニングデータとする。同一の解答候補を含むウェブスニペットは、同系列のスニペットとみなし、これを同一のクラスタに属させる。そして、この割り当ての結果を分類ステップのトレーニングデータとしてとして利用する。
【0028】
即ち、検索エンジンのトップm位までのスニペット{s1,s2,・・・,sm}からn個の解答候補{c1,c2,・・・,cn}を抽出する。これらのスニペットは、それぞれ解答候補{ci}と少なくとも1の質問キーワード{qi}を保有している。そして、これらスニペット{s1,s2,・・・,sm}は、ウェブサーチ結果のクラスタリングにより、n個のクラスタ{C1,C2,・・・,Cn}へと割り当てられることになる。
【0029】
仮にスニペットがL個の異なる解答候補を保有するものであれば、そのスニペットはL個の異なるクラスタに割り当てられることになる。また、異なるスニペットの解答候補が互いに同一であれば、これらのスニペットは同一のクラスタに割り当てられることになる。
【0030】
最終的に、クラスタ{Ci}は、解答候補{ci}の数によって決定される。そしてクラスタCiのクラスタ名は、解答候補ciに基づくものとなる。これらクラスタ化された解答候補ciが上述したトレーニングデータとなる。
【0031】
次に、ステップS5へ移行し、トレーニングデータを解析することにより上記クラスタを分類する
【0032】
さらに次にステップS6へ移行し、トレーニングデータの解析と同一解析条件の下で上記質問文を解析し、当該質問文の解析結果と最も類似するクラスタを順に抽出し、これを応答として出力する。この分類ステップS6は、ユーザの質問から分析したテストベクトルを利用することにより、クラスタの一つに割り当て、質問に対する解答を、質問のクラスタの名称と仮定する。
【0033】
以下、このステップS5とステップS6を一つの分類ステップとして説明をしていく。この分類ステップでは、SVM(Support Vector Machine)を利用することにより、質問文の解析結果と最も類似するクラスタを順に抽出するようにしてもよい。
【0034】
また、この分類ステップでは、トレーニングデータと質問文との単語重複度を示すSBFS(similarity-based feature set)、トレーニングデータと質問文とのブーリアン重複度を示すBMFS(Boolean match-based feature set)、トレーニングデータを構成する解答候補の前後を構成する文字を含めた文字列と上記質問文との類似度を示すWWFS(window-based word feature set)に基づいて、当該質問文の解析結果と最も類似するクラスタを順に抽出するようにしてもよい。
【0035】
SBFSとしては、キーワードの重複度、キーワードの非重複度、キーワードのbi-gramの一致度、シーソラスの重複度、キーワードと解答候補との間の規格化距離の何れか1以上に基づくものであってもよい。
【0036】
BMFSは、人名が一致しているか否か、地域名が一致しているか否か、組織名が一致しているか否か、時を示す単語が一致しているか否か、数量を示す単語が一致しているか否か、語源が一致しているか否か、解答候補が質問文のbi-gramと一致したbi-gramを有するか否か、解答候補がネームディエンティティタイプを要求されているか否かの何れか1以上に基づくものであってもよい。
【0037】
WWFSは、以下のISF値により重み付けされていてもよい。
ISF(wj,Ci)=(N(wj,Ci)+0.5)/(N(wj)+0.5)
ここで、N(wj)は、単語wが含まれているウェブページのスニペットの総数、N(wj,Ci)は、単語wが含まれているクラスタCiにおけるスニペットの数である。
【0038】
最後にステップS7に移行し、実際に上記プロセスの下で得た回答をユーザ端末装置11の表示部を介して表示する。
【0039】
次に、本発明を用いた質問応答システム1による効果について説明をする。
【0040】
中国語によるウェブの質問応答(QA)における3種類のデータセットとしてのCTREC04、CTREC05、CTEST05を利用し、本発明を適用したU(unsupervised)-SVMを検証することとした。CTREC04は、TREC2004FACTOIDのテスト問題から翻訳された178個の中国語による質問のセットからなる。CTREC05は、TRE2005FACTOIDのテスト問題から翻訳された279個の中国語による質問のセットからなる。CTEST05は、中国語で記載されたものを除く、TERCのテスト問題に類似する178個の中国語の質問のセットからなる。
【0041】
実験は、3つの評価項目、即ち、top_1,top_5,mrr_5に基づいて評価を行った。評価結果を表1、2、3に示す。ここで、top_1は、解答の正確性がトップ1位である解答が含まれている割合を示している。top_5は、解答の正確性がトップ5位以内である解答の一つが含まれている割合を示している。mrr_5は、各質問に対する正解の平均相対ランク(1/n)を示しており、ここで最高ランクn(n≦5)としている。
【0042】
各データセット(CTREC04、CTREC05、CTEST05)をU-SVMを用いて解析することにより得られた各評価項目(top_1,top_5,mrr_5)を表1に示す。
【0043】
【表1】
JP0005213098B2_000002t.gif

【0044】
また、表2において、CTrec04と、CTrec05のテストデータをU-SVMとthe Retrieval-M(従来の検索手法)それぞれを用いて解析することにより得られた各評価項目(top_1,top_5,mrr_5)の相対比較を表2に示す。
【0045】
【表2】
JP0005213098B2_000003t.gif

【0046】
さらに、Pattern-M(パターン重視による手法)とS-SVM(SVMを利用した教化学習法によるもの)に対するU-SVMのパフォーマンス性を比較するために、CTEST05のデータセットを用いて検証を行った。表3は、U-SVM、Pattern-M、S-SVMの各モデルを用いてCTEST05を解析することにより得られた各評価項目(top_1,mrr_5)の相対比較を示している。
【0047】
【表3】
JP0005213098B2_000004t.gif

【0048】
上述した表1~3の結果から、各モデルによる正答率(パフォーマンスランキング)は、U-SVM>Pattern-M>S-SVM>Retrieval-Mの順となった。
【0049】
即ち、本発明では、上述した図2に示すフローに基づいて、解答を抽出していくため、正答率を向上させることが可能となる。
【図面の簡単な説明】
【0050】
【図1】本発明を適用した質問応答システムの構成例を示す図である。
【図2】本発明を適用した質問応答システムの処理手順を示すフローチャートである。
【符号の説明】
【0051】
1 質問応答システム
11 ユーザ端末装置
12 通信網
13 ウェブサーバ
14 制御装置
図面
【図1】
0
【図2】
1