Top > Search of Japanese Patents > QUESTION AND ANSWER METHOD USING STATISTICAL TEST, QUESTION AND ANSWER SYSTEM, QUESTION AND ANSWER PROGRAM, AND RECORDING MEDIUM RECORDING THE PROGRAM

QUESTION AND ANSWER METHOD USING STATISTICAL TEST, QUESTION AND ANSWER SYSTEM, QUESTION AND ANSWER PROGRAM, AND RECORDING MEDIUM RECORDING THE PROGRAM commons

Patent code P140010716
File No. 02-100
Posted date Jul 3, 2014
Application number P2002-282795
Publication number P2004-118647A
Patent number P3845727
Date of filing Sep 27, 2002
Date of publication of application Apr 15, 2004
Date of registration Sep 1, 2006
Inventor
  • (In Japanese)村田 真樹
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title QUESTION AND ANSWER METHOD USING STATISTICAL TEST, QUESTION AND ANSWER SYSTEM, QUESTION AND ANSWER PROGRAM, AND RECORDING MEDIUM RECORDING THE PROGRAM commons
Abstract PROBLEM TO BE SOLVED: To provide a question and answer method and a question and answer system capable of accurately determining whether a unit expression is an appropriate unit expression as a unit expression to be added to a corresponding quantitative expression or not where a solution of a question is quantitatively expressed.
SOLUTION: On the basis of the input question information and the electronic text information stored in a database 16, an expression estimating part 17 of an unnecessary co-occurrence word eliminating system 11 determines that a unit expression, which has a low probability of appearing by co-occurring with main subjects in the question, among the unit expressions extracted from a combination pattern of the main subjects and the quantitative expression of the question is unnecessary unit expression, and eliminates it.
Outline of related art and contending technology (In Japanese)

質問応答システムの実行例として,「20世紀最初にトラはどのくらいいましたか」という質問文を与えることを考える。当該質問文の解は「10万頭」であるが,これを求めるために一般の質問応答システムでは「どのくらい」という表現から数量表現が解であろうと推測する。また,さらに「トラはどのくらい」また「どのくらいいました」といった表現から,「どのくらい」に相当する数量表現としては,「...頭」といった「頭」を単位表現とした数量表現であろうと推測する。

この情報に基づいて,例えば,キーワード抽出を行ない,「20世紀最初」「トラ」をキーワードとして記事や文書を検索し,その検索によって得られた記事や文書から,数字表現+「頭」のパターンを取り出すことで,解の「10万頭」を取り出すことができる。

このような単位表現を含んだ解を取り出す質問応答システムは従来から存在した。(非特許文献1参照。)。

また,与えられた文書集合を特徴付ける単語を選出する方法についても,従来から存在している(非特許文献2参照。)。

【非特許文献1】

佐々木裕,磯崎秀樹,平博順,平尾努,賀沢秀人,鈴木潤,国領弘治,前田英作,SAIQA:大量文書に基づく質問応答システム,情報処理学会自然言語処理研究会2001-NL-145,2001

【非特許文献2】

久光徹,丹羽芳樹,組み合わせ的確率モデルに基づく特徴単語選択方法,情報処理学会自然言語処理研究会,140-12,2000

Field of industrial application (In Japanese)

本発明は,コンピュータによる自然言語の情報処理システムに係わり,特に統計的検定を利用して不要な共起語を除去する質問応答システムに関するものである。

質問応答システムとは,例えば「日本の首都はどこですか」,「2002年のワールドカップの優勝国はどこですか」といった質問を入力すると,大量の電子化テキストから「東京」,「ブラジル」といった解を的確に出力するシステムのことである。

質問応答システムは,検索した記事から解を探す必要がある情報検索などとは異なり,解自体を的確に出力するため,ユーザーがより早く解の情報を得ることができる。また,質問応答システムは,解自体を自動で出力するため,他の自動の知識処理システムの内部での知識処理システムとして利用することも可能である。本発明は,このように有用な質問応答システムのうち,統計的検定を利用して不要な共起語を除去する質問応答システムに関する。

Scope of claims (In Japanese)
【請求項1】
 
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
入力された質問文の解が数量表現である場合に,統計的検定を用いて,前記電子化テキスト情報において出現する,前記質問文に含まれる,形態素解析と文パターンを用いた所定の規則に基づいて認定される特定の名詞と数量表現との組み合わせパターンから単位表現を抽出し,抽出された単位表現が前記質問文中の特定の名詞と共起して出現する可能性を示す確率値を算出し,算出した前記確率値が閾値以上かによって,前記質問文の解としての数量表現の決定に用いる単位表現を決定し,決定した単位表現を含む数量表現を決定する手段と,
前記決定された数量表現を用いて前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項2】
 
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出し,算出した出現回数の情報に基づいて前記特定の名詞の一般的出現確率を算出する出現確率算出手段と,
前記算出した特定の名詞の一般的出現確率に基づいて,前記電子化テキスト情報において前記各単位表現が出現するパターンのうち前記特定の名詞が前記各単位表現と共起して出現する回数の確率分布を算出する確率分布算出手段と,
前記算出した確率分布における前記特定の名詞が前記各単位表現と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおける前記数量表現に付されている各単位表現の出現回数以上である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値以上の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値未満の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項3】
 
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出し,算出した出現回数の情報に基づいて前記各単位表現の一般的出現確率を算出する出現確率算出手段と,
前記各単位表現の一般的出現確率に基づいて,前記電子化テキスト情報において前記特定の名詞が出現するパターンのうち前記各単位表現が前記特定の名詞と共起して出現する回数の確率分布を算出する確率分布算出手段と,
前記算出した確率分布における前記各単位表現が前記特定の名詞と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおいて前記数量表現に付されている前記各単位表現と共起して出現する前記数量表現の出現回数以上である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値以上の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値未満の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項4】
 
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出し,算出した出現回数の情報に基づいて前記特定の名詞の一般的出現確率を算出する出現確率算出手段と,
前記算出した特定の名詞の一般的出現確率に基づいて,前記電子化テキスト情報において前記各単位表現が出現するパターンのうち前記特定の名詞が前記各単位表現と共起して出現する回数の確率分布を算出する確率分布算出手段と,
前記算出した確率分布における前記特定の名詞が前記各単位表現と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおける前記数量表現に付されている各単位表現の出現回数以下である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値未満の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値以上の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項5】
 
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出し,算出した出現回数の情報に基づいて前記各単位表現の一般的出現確率を算出する出現確率算出手段と,
前記各単位表現の一般的出現確率に基づいて,前記電子化テキスト情報において前記特定の名詞が出現するパターンのうち前記各単位表現が前記特定の名詞と共起して出現する回数の確率分布を算出する確率分布算出手段と,
前記算出した確率分布における前記各単位表現が前記特定の名詞と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおいて前記数量表現に付されている前記各単位表現と共起して出現する前記数量表現の出現回数以下である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値未満の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値以上の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項6】
 
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出する手段と,
超幾何分布を用いて,超幾何分布における前記特定の名詞が前記各単位表現と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおける前記数量表現に付されている各単位表現の出現回数以上である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値以上の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値未満の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項7】
 
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出する手段と,
超幾何分布を用いて,超幾何分布における前記特定の名詞が前記各単位表現と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおける前記数量表現に付されている各単位表現の出現回数以下である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値未満の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値以上の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2002282795thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close