TOP > 国内特許検索 > 統計的検定を利用した質問応答システム

統計的検定を利用した質問応答システム コモンズ

国内特許コード P140010716
整理番号 02-100
掲載日 2014年7月3日
出願番号 特願2002-282795
公開番号 特開2004-118647
登録番号 特許第3845727号
出願日 平成14年9月27日(2002.9.27)
公開日 平成16年4月15日(2004.4.15)
登録日 平成18年9月1日(2006.9.1)
発明者
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 統計的検定を利用した質問応答システム コモンズ
発明の概要 【課題】質問文に対する解が数量表現の場合に,当該数量表現に付される単位表現として適切な単位表現かを的確に判断することが可能な質問応答方法および質問応答システムを提供する。
【解決手段】入力された質問文情報とデータベース16に記憶された電子化テキスト情報とに基づいて,不要共起語削除システム11の表現推測部17において,統計的検定を用いて,前記電子化テキスト情報において出現する前記質問文の主たる名詞と数量表現との組み合わせパターンから抽出される単位表現のうち前記質問文中の主たる名詞と共起して出現する可能性が低い単位表現を不要な単位表現と判断して除去する。
【選択図】  図1
従来技術、競合技術の概要



質問応答システムの実行例として,「20世紀最初にトラはどのくらいいましたか」という質問文を与えることを考える。当該質問文の解は「10万頭」であるが,これを求めるために一般の質問応答システムでは「どのくらい」という表現から数量表現が解であろうと推測する。また,さらに「トラはどのくらい」また「どのくらいいました」といった表現から,「どのくらい」に相当する数量表現としては,「...頭」といった「頭」を単位表現とした数量表現であろうと推測する。





この情報に基づいて,例えば,キーワード抽出を行ない,「20世紀最初」「トラ」をキーワードとして記事や文書を検索し,その検索によって得られた記事や文書から,数字表現+「頭」のパターンを取り出すことで,解の「10万頭」を取り出すことができる。





このような単位表現を含んだ解を取り出す質問応答システムは従来から存在した。(非特許文献1参照。)。





また,与えられた文書集合を特徴付ける単語を選出する方法についても,従来から存在している(非特許文献2参照。)。





【非特許文献1】

佐々木裕,磯崎秀樹,平博順,平尾努,賀沢秀人,鈴木潤,国領弘治,前田英作,SAIQA:大量文書に基づく質問応答システム,情報処理学会自然言語処理研究会2001-NL-145,2001

【非特許文献2】

久光徹,丹羽芳樹,組み合わせ的確率モデルに基づく特徴単語選択方法,情報処理学会自然言語処理研究会,140-12,2000

産業上の利用分野



本発明は,コンピュータによる自然言語の情報処理システムに係わり,特に統計的検定を利用して不要な共起語を除去する質問応答システムに関するものである。





質問応答システムとは,例えば「日本の首都はどこですか」,「2002年のワールドカップの優勝国はどこですか」といった質問を入力すると,大量の電子化テキストから「東京」,「ブラジル」といった解を的確に出力するシステムのことである。





質問応答システムは,検索した記事から解を探す必要がある情報検索などとは異なり,解自体を的確に出力するため,ユーザーがより早く解の情報を得ることができる。また,質問応答システムは,解自体を自動で出力するため,他の自動の知識処理システムの内部での知識処理システムとして利用することも可能である。本発明は,このように有用な質問応答システムのうち,統計的検定を利用して不要な共起語を除去する質問応答システムに関する。

特許請求の範囲 【請求項1】
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
入力された質問文の解が数量表現である場合に,統計的検定を用いて,前記電子化テキスト情報において出現する,前記質問文に含まれる,形態素解析と文パターンを用いた所定の規則に基づいて認定される特定の名詞と数量表現との組み合わせパターンから単位表現を抽出し,抽出された単位表現が前記質問文中の特定の名詞と共起して出現する可能性を示す確率値を算出し,算出した前記確率値が閾値以上かによって,前記質問文の解としての数量表現の決定に用いる単位表現を決定し,決定した単位表現を含む数量表現を決定する手段と,
前記決定された数量表現を用いて前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項2】
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出し,算出した出現回数の情報に基づいて前記特定の名詞の一般的出現確率を算出する出現確率算出手段と,
前記算出した特定の名詞の一般的出現確率に基づいて,前記電子化テキスト情報において前記各単位表現が出現するパターンのうち前記特定の名詞が前記各単位表現と共起して出現する回数の確率分布を算出する確率分布算出手段と,
前記算出した確率分布における前記特定の名詞が前記各単位表現と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおける前記数量表現に付されている各単位表現の出現回数以上である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値以上の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値未満の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項3】
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出し,算出した出現回数の情報に基づいて前記各単位表現の一般的出現確率を算出する出現確率算出手段と,
前記各単位表現の一般的出現確率に基づいて,前記電子化テキスト情報において前記特定の名詞が出現するパターンのうち前記各単位表現が前記特定の名詞と共起して出現する回数の確率分布を算出する確率分布算出手段と,
前記算出した確率分布における前記各単位表現が前記特定の名詞と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおいて前記数量表現に付されている前記各単位表現と共起して出現する前記数量表現の出現回数以上である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値以上の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値未満の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項4】
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出し,算出した出現回数の情報に基づいて前記特定の名詞の一般的出現確率を算出する出現確率算出手段と,
前記算出した特定の名詞の一般的出現確率に基づいて,前記電子化テキスト情報において前記各単位表現が出現するパターンのうち前記特定の名詞が前記各単位表現と共起して出現する回数の確率分布を算出する確率分布算出手段と,
前記算出した確率分布における前記特定の名詞が前記各単位表現と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおける前記数量表現に付されている各単位表現の出現回数以下である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値未満の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値以上の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項5】
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出し,算出した出現回数の情報に基づいて前記各単位表現の一般的出現確率を算出する出現確率算出手段と,
前記各単位表現の一般的出現確率に基づいて,前記電子化テキスト情報において前記特定の名詞が出現するパターンのうち前記各単位表現が前記特定の名詞と共起して出現する回数の確率分布を算出する確率分布算出手段と,
前記算出した確率分布における前記各単位表現が前記特定の名詞と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおいて前記数量表現に付されている前記各単位表現と共起して出現する前記数量表現の出現回数以下である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値未満の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値以上の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項6】
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出する手段と,
超幾何分布を用いて,超幾何分布における前記特定の名詞が前記各単位表現と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおける前記数量表現に付されている各単位表現の出現回数以上である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値以上の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値未満の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。

【請求項7】
自然言語による質問文を入力し,データベースに記憶された電子化テキスト情報中の文との照合によって解を生成して出力する質問応答システムであって,
前記質問文を入力する質問文入力手段と,
前記質問文に数量表現を問い合わせる単語が含まれるかどうかにより,前記質問文の解が数量表現であるかを判断する数量表現判断手段と,
形態素解析と文パターンを用いた所定の規則に基づいて,前記質問文に含まれる特定の名詞を認定する手段と,
前記数量表現判断手段が質問文の解が数量表現であると判断した場合に,前記電子化テキスト情報から前記認定された特定の名詞と数量表現とが係り受け関係である組み合わせパターンを抽出し,抽出された前記組み合わせパターンから前記数量表現に付されている1又は複数の単位表現を抽出する単位表現抽出手段と,
前記電子化テキスト情報における前記特定の名詞と前記抽出された各単位表現の出現回数を算出する手段と,
超幾何分布を用いて,超幾何分布における前記特定の名詞が前記各単位表現と共起して出現する回数が前記特定の名詞と数量表現とが係り受け関係である組み合わせパターンにおける前記数量表現に付されている各単位表現の出現回数以下である確率である検定確率を算出し,前記単位表現抽出手段が抽出した1又は複数の単位表現のうち,算出した前記検定確率が予め設定した閾値未満の単位表現を除去する不要単位表現除去手段と,
前記検定確率が閾値以上の単位表現を含む数量表現を決定する手段と,
前記質問文中からキーワードを抽出し,抽出したキーワードを用いて前記電子化テキスト情報から前記質問文の解が記述された情報を取り出す手段と,
前記決定された数量表現を用いて,前記質問文の解が記述された情報から前記質問文の解を抽出する解答抽出手段とを備える
ことを特徴とする統計的検定を利用した質問応答システム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2002282795thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close