TOP > 国内特許検索 > 確信度付与装置及び方法及びプログラム > 明細書

明細書 :確信度付与装置及び方法及びプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第4925293号 (P4925293)
公開番号 特開2008-165480 (P2008-165480A)
登録日 平成24年2月17日(2012.2.17)
発行日 平成24年4月25日(2012.4.25)
公開日 平成20年7月17日(2008.7.17)
発明の名称または考案の名称 確信度付与装置及び方法及びプログラム
国際特許分類 G06F  17/30        (2006.01)
FI G06F 17/30 370Z
請求項の数または発明の数 15
全頁数 50
出願番号 特願2006-354123 (P2006-354123)
出願日 平成18年12月28日(2006.12.28)
審査請求日 平成21年9月30日(2009.9.30)
特許権者または実用新案権者 【識別番号】301022471
【氏名又は名称】独立行政法人情報通信研究機構
発明者または考案者 【氏名】村田 真樹
個別代理人の代理人 【識別番号】100103827、【弁理士】、【氏名又は名称】平岡 憲一
【識別番号】100119161、【弁理士】、【氏名又は名称】重久 啓子
審査官 【審査官】野崎 大進
参考文献・文献 特開2003-022275(JP,A)
乾 裕子 他,表層表現に着目した自由回答アンケートの意図に基づく自動分類,自然言語処理,日本,言語処理学会,2003年 4月10日,Vol.10,No.2,PP.19-42.
金丸 敏幸 他,話者の意図に関わる副詞辞書の構築,言語処理学会第12回年次大会ワークショップ「感情・評価・態度と言語」論文集,日本,言語処理学会,2006年 3月13日,PP.41-44.
調査した分野 G06F 17/30
JSTPlus(JDreamII)
特許請求の範囲 【請求項1】
問題を入力する入力手段と、
前記入力された問題を解いてその解答を複数抽出し、該抽出した前記解答と所定値とを出力する問題解決手段と、
予め解答が付与された問題を複数個用意し、該問題をそれぞれ前記問題解決手段に入力してそれぞれの解答を出力するときに、前記所定値と前記解答と前記解答の確信度を求め、前記所定値と確信度の対応関係を作成する対応関係作成手段と、
前記入力手段より新しい問題を入力して前記問題解決手段で解答を順序化して出力するとき、ある解答が出力される前記所定値を求め、前記対応関係からある解答の確信度を付与して出力する確信度付与手段とを備えることを特徴とした確信度付与装置。
【請求項2】
前記確信度として、全ての出力のうちの正解出力の割合である適合率を用いることを特徴とした請求項1記載の確信度付与装置。
【請求項3】
前記確信度として、正解数のうち、正解出力の割合である再現率を用いることを特徴とした請求項1記載の確信度付与装置。
【請求項4】
前記確信度として、再現率の逆数と適合率の逆数の平均の逆数であるF値を用いることを特徴とした請求項1記載の確信度付与装置。
【請求項5】
前記確信度付与手段により確信度を付与して出力する数を、F値を最大にする数とすることを特徴とした請求項1~4のいずれかに記載の確信度付与装置。
【請求項6】
前記確信度として、個々の解答の正解率を用いることを特徴とした請求項1記載の確信度付与装置。
【請求項7】
予め解答が付与された問題を複数個用意し、該問題をそれぞれ前記問題解決手段に入力してそれぞれの解答を出力するときに、該解答がぎりぎり出力される前記所定値を求め、該ぎりぎり出力される解答が正解しているかを調べて前記所定値の時の正解率を求め、どうゆう所定値なら正解か不正解かの事例を機械学習して学習結果を蓄える機械学習手段を備え、
前記確信度付与手段は、前記対応関係として前記学習結果を用いることを特徴とした請求項6記載の確信度付与装置。
【請求項8】
前記所定値として、複数観点の所定値を用い、前記対応関係作成手段で前記複数観点の所定値と確信度の対応関係を作成することを特徴とした請求項1~7記載のいずれかに記載の確信度付与装置。
【請求項9】
前記問題解決手段が文書分類装置であり、前記問題が分類を付与する文書であり、前記解答が前記文書の分類であることを特徴とした請求項1~8のいずれかに記載の確信度付与装置。
【請求項10】
前記問題解決手段が情報検索装置であり、前記問題が質問の文書であり、前記解答が前記質問の文書より検索された文書であることを特徴とした請求項1~8のいずれかに記載の確信度付与装置。
【請求項11】
前記問題解決手段で、スコアを求めて解答を出力する場合、前記所定値として、ある解答のスコアを最初の解答のスコアで割った値(kp)を用いることを特徴とした請求項1~10のいずれかに記載の確信度付与装置。
【請求項12】
前記問題解決手段で、解答を出力するときの前記所定値として出力順位(kj)を用いることを特徴とした請求項1~10のいずれかに記載の確信度付与装置。
【請求項13】
前記問題解決手段で、スコアを求めて解答を出力する場合、前記所定値として、スコア(kl)を用いることを特徴とした請求項1~10のいずれかに記載の確信度付与装置。
【請求項14】
入力手段より問題を入力し、
問題解決手段で前記入力された問題を解いてその解答を複数抽出し、該抽出した前記解答とその解答を順序化する所定値とを出力し、
対応関係作成手段で予め解答が付与された問題を複数個用意し、該問題をそれぞれ前記問題解決手段に入力してそれぞれの解答を出力するときに、前記所定値と前記解答を出力し、同じ前記所定値と前記出力したそれぞれの解答の確信度の平均を求め、前記所定値と確信度の対応関係を作成する対応関係作成手段と、
確信度付与手段で前記入力手段より新しい問題を入力して前記問題解決手段で解答を順序化して出力するとき、ある解答が出力される前記所定値を求め、前記対応関係からある解答の確信度を付与して出力することを特徴とした確信度付与方法。
【請求項15】
問題を入力する入力手段と、
前記入力された問題を解いてその解答を複数抽出し、該抽出した前記解答とその解答を順序化する所定値とを出力する問題解決手段と、
予め解答が付与された問題を複数個用意し、該問題をそれぞれ前記問題解決手段に入力してそれぞれの解答を出力するときに、前記所定値と前記解答を出力し、同じ前記所定値と前記出力したそれぞれの解答の確信度の平均を求め、前記所定値と確信度の対応関係を作成する対応関係作成手段と、
前記入力手段より新しい問題を入力して前記問題解決手段で解答を順序化して出力するとき、ある解答が出力される前記所定値を求め、前記対応関係からある解答の確信度を付与して出力する確信度付与手段として、
コンピュータを機能させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、例えばgoogle(登録商標)などの検索結果で、検索の上位から検索結果の文書を提示するときに、その各文書に確信度(精度、再現率、F値、正解率等)を付与するものである。確信度(正解率)は、その文書が検索結果として正しいかどうかを意味する値である。50%なら、半分の確率であっているもので、100%なら、ほぼ100%あっているものである。これを自動で付与する検索結果への確信度付与装置及び方法及びプログラムに関する。
【背景技術】
【0002】
従来、キーワードにより文書を検索して、キーワードの出現確率等により検索結果を順序つけて出力するシステムはあった(特許文献1参照)。

【特許文献1】特許3799447号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
上記従来の検索結果を順序つけて出力するシステムは、効果的な方法で各文書に確信度(正解率等)を付与する技術はなかった。
【0004】
本発明は上記問題点の解決を図り、検索結果で、検索の上位から検索結果の文書を提示するときにその各文書に確信度(正解率等)を自動で付与することを目的とする。
【課題を解決するための手段】
【0005】
図7は確信度付与装置の説明図である。図7中、1は入力部(入力手段)、6は出力部(出力手段)、10は文書分類装置(問題解決手段)、11は対応表作成部(対応関係作成手段)、12は確信度付与部(確信度付与手段)、13は格納部(対応表)である。
【0006】
本発明は、前記従来の課題を解決するため次のような手段を有する。
【0007】
(1):問題を入力する入力手段1と、前記入力された問題を解いてその解答を複数抽出し、該抽出した前記解答と所定値とを出力する問題解決手段10と、予め解答が付与された問題を複数個用意し、該問題をそれぞれ前記問題解決手段10に入力してそれぞれの解答を出力するときに、前記所定値と前記解答と前記解答の確信度を求め(即ち、この確信度は、前記解答と、予め解答が付与された問題を照らし合わせて、出力した解答がどのくらいあっているかを調べて、確信度の定義にしたがって求める)、前記所定値と確信度の対応関係を作成する対応関係作成手段11と、前記入力手段1より新しい問題を入力して前記問題解決手段10で解答を順序化して出力するとき、ある解答が出力される前記所定値を求め、前記対応関係からある解答の確信度を付与して出力する確信度付与手段12とを備える。このため、出力される解答の確信度を付与することができ、どの解答が信頼できるかを容易に判断できる。
【0008】
(2):前記(1)の確信度付与装置において、前記確信度として、全ての出力のうちの正解出力の割合である適合率を用いる。このため、出力された分類又は文書までの適合率(精度)を容易に判断することができる。
【0009】
(3):前記(1)の確信度付与装置において、前記確信度として、正解数のうち、正解出力の割合である再現率を用いる。このため、再現率により正解のもれ量を容易に判断することができる。
【0010】
(4):前記(1)の確信度付与装置において、前記確信度として、再現率の逆数と適合率の逆数の平均の逆数であるF値を用いる。このため、F値を用いて、適合率(精度)ともれ量を考慮した確信度を付与することができる。
【0011】
(5):前記(1)~(4)の確信度付与装置において、前記確信度付与手段12により確信度を付与して出力する数を、F値を最大にする数とする。このため、確信度の高い分類又は文書のみを出力することができる。
【0012】
(6):前記(1)の確信度付与装置において、前記確信度として、個々の解答の正解率を用いる。このため、出力される個々の解答の正解率(確信度)を付与することができ、どの解答が信頼できるかを容易に判断できる。
【0013】
(7):前記(6)の確信度付与装置において、予め解答が付与された問題を複数個用意し、該問題をそれぞれ前記問題解決手段10に入力してそれぞれの解答を出力するときに、該解答がぎりぎり出力される前記所定値を求め、該ぎりぎり出力される解答が正解しているかを調べて前記所定値の時の正解率を求め、どうゆう所定値なら正解か不正解かの事例を機械学習して学習結果を蓄える機械学習手段を備え、前記確信度付与手段12は、前記対応関係として前記学習結果を用いる。このため、機械学習により、出力される正解の正解率を容易に付与することができる。
【0014】
(8):前記(7)の確信度付与装置において、前記所定値として、複数観点の所定値を用い、前記機械学習手段に前記複数観点の所定値のときの正解か不正解かの事例を機械学習させる。このため、複数観点の所定値により、より正確な機械学習を行うことができる。
【0015】
(9):前記(1)~(8)の確信度付与装置において、前記問題解決手段10が文書分類装置であり、前記問題が分類を付与する文書であり、前記解答が前記文書の分類である。このため、出力される分類に確信度を付与することができる。
【0016】
(10):前記(1)~(8)の確信度付与装置において、前記問題解決手段10が情報検索装置であり、前記問題が質問の文書であり、前記解答が前記質問の文書より検索された文書である。このため、出力される解答の文書に確信度を付与することができる。
【0017】
(11):前記(1)~(10)の確信度付与装置において、前記問題解決手段10で、スコアを求めて解答を出力する場合、前記所定値として、ある解答のスコアを最初の解答のスコアで割った値(kp)を用いる。このため、あるkpにより解答に確信度を付与することができる。
【0018】
(12):前記(1)~(10)の確信度付与装置において、前記問題解決手段10で、解答を出力するときの前記所定値として出力順位(kj)を用いる。このため、kjにより解答に確信度を付与することができる。
【0019】
(13):前記(1)~(10)の確信度付与装置において、前記問題解決手段10で、スコアを求めて解答を出力する場合、前記所定値として、スコア(kl)を用いる。このため、klにより解答に確信度を付与することができる。
【発明の効果】
【0020】
本発明によれば次のような効果がある。
【0021】
(1):予め解答が付与された問題から対応関係作成手段で、所定値と確信度の対応関係を作成しておき、新しい問題を入力して問題解決手段で解答を順序化して出力するとき、ある解答が出力される所定値を求め、前記対応関係からある解答の確信度を付与して出力するため、出力される解答の確信度を付与することができ、どの解答まで信頼できるかを容易に判断できる。
【0022】
(2):前記確信度として、全ての出力のうちの正解出力の割合である適合率を用いるため、出力された分類又は文書までの適合率(精度)を容易に判断することができる。
【0023】
(3):前記確信度として、正解数のうち、正解出力の割合である再現率を用いるため、再現率により正解のもれ量を容易に判断することができる。
【0024】
(4):前記確信度として、再現率の逆数と適合率の逆数の平均の逆数であるF値を用いるため、F値を用いて、適合率(精度)ともれ量を考慮した確信度を付与することができる。
【0025】
(5):前記確信度付与手段により確信度を付与して出力する数を、F値を最大にする数とするため、確信度の高い分類又は文書のみを出力することができる。
【0026】
(6):前記確信度として、個々の解答の正解率を用いるため、出力される個々の解答の正解率(確信度)を付与することができ、どの解答が信頼できるかを容易に判断できる。
【0027】
(7):機械学習手段を備え前記確信度付与手段で、前記対応関係として前記学習結果を用いるため、機械学習により、出力される正解の正解率を容易に付与することができる。
【0028】
(8):前記所定値として、複数観点の所定値を用い、機械学習手段に前記複数観点の所定値のときの正解か不正解かの事例を機械学習させるため、複数観点の所定値により、より正確な機械学習を行うことができる。
【0029】
(9):前記問題解決手段が文書分類装置であり、前記問題が分類を付与する文書であり、前記解答が前記文書の分類であるため、出力される分類に確信度を付与することができる。
【0030】
(10):前記問題解決手段が情報検索装置であり、前記問題が質問の文書であり、前記解答が前記質問の文書より検索された文書であるため、出力される解答の文書に確信度を付与することができる。
【0031】
(11):前記問題解決手段で、スコアを求めて解答を出力する場合、前記所定値として、ある解答のスコアを最初の解答のスコアで割った値(kp)を用いるため、あるkpにより解答に確信度を付与することができる。
【0032】
(12):問題解決手段で、解答を出力するときの前記所定値として出力順位(kj)を用いるため、kjにより解答に確信度を付与することができる。
【0033】
(13):前記問題解決手段で、スコアを求めて解答を出力する場合、前記所定値として、スコア(kl)を用いるため、klにより解答に確信度を付与することができる。
【発明を実施するための最良の形態】
【0034】
本発明は、情報検索結果で、検索の上位から検索結果の文書を提示するときにその各文書に確信度(精度、再現率、F値、正解率等)を自動で付与するものである。付与の方法は、あらかじめ正解のセットを用意しておき、その正解セットでどういう場合に、どのくらいの精度かの対応表を求めておく。そして新しい文書がきたとき、その文書がどういう場合か調べて、先に求めた表から確信度を求める。なお、表以外に他の同様の方法でも可能である。また、文書検索以外の、出力がリスト化されているものならばどのようなものも扱える。
【0035】
§1:表に基づく確信度付与の説明
本発明は、分類したい文書と類似した文書を、検索において高精度で知られるBM25やSMART の方式で収集し、その文書群で出現頻度の大きい分類にその文書を分類するとき確信度の付与を行う。特に、一つの文書に複数の分類が付与される、Multi-class の分類問題を扱い、出現頻度の大きい分類のうち、どの分類までを、その文書の分類とするか確信度を参考とすることができる。
【0036】
(1):文書分類装置の説明
図1は文書分類装置の説明図である。図1において、文書分類装置には、入力部(入力手段)1、文書抽出部(文書抽出手段)2、文書類似度算出部(文書類似度算出手段)3、スコア算出部(スコア算出手段)4、分類集合抽出部(分類集合抽出手段)5、出力部(出力手段)6が設けてある。
【0037】
入力部1は、特許文書等の文書を入力する入力手段である。文書抽出部2は、分類したい文書と類似した文書(k個)を抽出する文書抽出手段である。文書類似度算出部3は、文書間の類似度を算出する文書類似度算出手段である。スコア算出部4は、分類のスコアを算出するスコア算出手段である。分類集合抽出部5は、分類のスコアにより、分類したい文書の分類集合(スコアが指定値以上のもの)を抽出する分類集合抽出手段である。出力部6は、分類したい文書の分類を出力(画面表示、印刷)する出力手段である。この出力部6の出力は、画面表示せず、プログラム内部で、他のプログラムに出力したり、プログラム内部で変数の値として、算出したりすることも含むものである。
【0038】
(2):特許の文書分類装置の説明
特許文書(特許文献)は、IPC、FI、Fターム(F-term)等で分類されている。特に、F-termは、一定の技術範囲(テーマ)を種々の技術的観点から多観点で区別したものであり、例えば、目的、用途、構造、材料、製法、処理操作方法、制御手段など多数の技術的観点から技術を区別したタームリストに基づいている。このため、一つの特許文書には、通常、複数のF-term(特許分類)が付与されている。以下、文書として特許文書を用いる場合の説明をする。
【0039】
図2は特許文書分類装置の説明図である。図2において、特許文書分類装置には、入力部(入力手段)1、KDOC抽出部(KDOC抽出手段)2、文書類似度算出部(文書類似度算出手段)3、スコア(Score M1(x) )算出部(スコア算出手段)4、F-term xの集合抽出部(F-term xの集合抽出手段)5、出力部(出力手段)6が設けてある。
【0040】
入力部1は、特許文書を入力する入力手段である。KDOC抽出部2は、分類したい特許文書と類似した特許文書(k個)を抽出するKDOC抽出手段である。なお、ここでKDOCは、抽出したk個の特許文書である。文書類似度算出部3は、特許文書間の類似度を算出する文書類似度算出手段である。スコア(Score M1(x) )算出部4は、特許分類のスコア(Score M1(x) )を算出するスコア算出手段である。F-term x の集合抽出部5は、特許分類のスコアにより、分類したい特許文書のF-term xの集合を抽出する分類集合抽出手段である。出力部6は、分類したい特許文書のF-term xの集合を出力する出力手段である。
【0041】
(3):特許文書の分類処理の説明
図3は特許文書の分類処理フローチャートである。以下、図3の処理S1~S5に従って説明する。
【0042】
S1:入力部1に、分類したい特許文書を入力する。
【0043】
S2:KDOC抽出部2は、入力した分類したい特許文書と類似したk個の特許文書(KDOC)を抽出する。ここで、文書類似度算出部3で、入力した分類したい特許文書と学習データとして与えられた特許文書集合(データベース等の格納手段内の)との類似度を求める。学習データとして与えられた特許文書集合は、正しいF-termの分類の付与された文書集合である。k個の特許文書の取り出しには、ruby-ir toolkit を利用した。kは実験で定める値である。
【0044】
S3:スコア(Score M1(x) )算出部4は、特許分類のスコア(Score M1(x) )を算出する。
【0045】
S4:F-term x の集合抽出部5は、特許分類のスコアにより、分類したい特許文書のF-term x の集合(スコアが指定値以上のもの)を抽出する。
【0046】
S5:出力部6は、分類したい特許文書のF-term x の集合を出力する。
【0047】
図4は入力特許文書と選択された特許文書の間の類似度を求める処理フローチャートである。以下、図4の処理S11~S12に従って説明する。
【0048】
S11:文書類似度算出部3は、入力の特許文書からキーワードを抽出する。このキーワードとしては、形態素解析技術を利用して、名詞を取り出した。
【0049】
S12:文書類似度算出部3は、次に学習データにある与えられた入力のテーマ(テーマは特に与えなくてもよい)を持つすべての特許文書から、上記キーワードを少なくとも一つ含む特許文書を取り出し、該取り出した特許文書の SimSMART を算出する。この SimSMART を学習データにあるそれぞれの特許文書との間の類似度として用いる。
【0050】
(4):F-term x の集合の取り出しの説明
F-term x の集合の取り出しには、以下のように四つの方法がある。
【0051】
a)方法1の説明
特許分類装置(KDOC抽出部2)は、まず、入力と最も類似したk個の特許文書を、学習データとして与えられた特許文書集合(正しいF-termの分類の付与された文書集合) から取り出す。このk個の特許文書をKDOCと呼ぶことにする。文書の取り出しには、ruby-ir toolkit を利用した。kは、実験で定める値である。
【0052】
(ruby-ir toolkit の参考文献)
ruby-ir-eng,"Masao Utiyama", "Information Retrieval Module for Ruby", 2005,
("www2.nict.go.jp/jt/a132/members/mutiyama/software" )
特許分類装置(スコア算出部4)は、次に、KDOCを以下の式(1)にしたがってソートすることで、F-term xのスコア(Score M1(x) )を計算する。
【0053】
【数1】
JP0004925293B2_000002t.gif

【0054】
ここで、
role(x,i) = 1 (もしi 番目の文書が F-term x の分類を持つ場合)
= 0(その他の場合)
ただし、score doc (i) は、入力文書と選択された文書の間の類似度がi 番目に大きいとされた文書の類似度の値であり、 kr は実験により定められる定数である。なお、score doc (i) を、次のように簡単にすることもできる。
【0055】
score doc (i) = 1001 - i
特許分類装置(分類集合抽出部5)は、最終的に、以下の式(2)を満足するF-term xの集合を取り出す。
【0056】
{ x|Score M1(x) ≧ kp × maxy Score M1(y) }・・・・(2)
ただし、 kp は、実験により定められる定数である。この取り出されたF-term xの集合が求める分類である。
【0057】
方法1の利用例の説明
(下のF-term1 、F-term2 などは、各文書にふられているF-termである)
文書A 入力文書との類似度 100 F-term1
文書B 入力文書との類似度 90 F-term1 F-term2
文書C 入力文書との類似度 80 F-term1
文書D 入力文書との類似度 70 F-term3
だったとし、kr = 0.99 とすると,
F-term1 のスコアは、 100+90*0.99+80*0.99^2=267.5
F-term2 のスコアは、 90*0.99=89.1
F-term3 のスコアは、 70*0.99^3=67.9
となる。
【0058】
kp = 0.9とすると、トップのスコアの 267.5の 0.9倍の 240.8以上のスコアの分類を取り出す。この場合、F-term1 だけがそれを満足するので、F-term1 だけが答えとして取り出されることになる。
【0059】
b)方法2の説明
文書分類装置は、まず、方法1と同様に KDOC を取り出す。文書分類装置は、次に、F-term xが KDOC において、何個の文書に現れたかを数える。この数を FKDOC(x) で記すと、文書分類装置は、最終的に以下の式を満足するF-term xの集合を取り出すことになる。
【0060】
{ x| FKDOC(x) ≧ ku ×k },
ただし、 ku は、実験により定められる定数である。ただし、 ku =0.5 のとき、この方法は、オリジナルのk近傍法と同一になる。
【0061】
c)方法3の説明
文書分類装置は、まず、方法1と同様に KDOC を取り出す。文書分類装置は、次に、 FKDOC(x) を計算する。文書分類装置は、最終的に、 FKDOC(x) の値の大きい順に kf 個の F-term を取り出し、これを求める分類とする。ここで、 kf は、実験により定める定数である。
【0062】
(5):対応表の説明
上記方法1~3でkp、 ku 、 kf を変化すると、取り出すF-termの数が変化するこになる。ここで入力文書に正解データ(正しいF-termが付与されている)がある場合、変化させた各kp、 ku 、 kf と確信度(精度、再現率、F値)の対応表を作成することができる。
【0063】
例えば、方法1を利用した場合のkpと特許文書のF-termの精度(適合率)の対応の場合、
kp=0.9の時に選ばれたF-termの精度→95%
kp=0.8の時に選ばれたF-termの精度→85%
kp=0.7の時に選ばれたF-termの精度→80%
kp=0.6の時に選ばれたF-termの精度→75%
kp=0.5の時に選ばれたF-termの精度→65%
kp=0.4の時に選ばれたF-termの精度→50%
kp=0.3の時に選ばれたF-termの精度→45%
kp=0.2の時に選ばれたF-termの精度→20%
kp=0.1の時に選ばれたF-termの精度→10%
上記の対応が各入力文書(正しいF-termが付与されている特許文書)ごとに出力される。したがって、精度(適合率)は、特許文書分類装置に入力された特許文書ごとに出力され、特許文書ごとに異なる精度となることがあるので、各特許文書の精度の平均をとる。例えば、kp=0.9の時の各特許文書の精度の平均を取るものである。なお、再現率、F値の場合も精度と同様に各特許文書の平均を取って対応表を作成する。
【0064】
図5はkpとF値の対応の説明図である。図5において、kpとF値(F-measure )の対応は、kpが 0.1から 0.3まではF値が上昇し、 0.4から 0.9までF値が低下している。kpが 0.3の時F値が最大となっている。なお、Dry run のデータは、各手法のパラメータを決めるのに利用した。Formal runのデータでの実験結果が、手法の性能を示していることになる。
【0065】
図6はkpと再現率と精度の対応の説明図である。図6において、横軸が再現率(Recall)、縦軸が精度(Precision) であり、グラフの黒点の数字がkpの値である。この図では、再現率が大きくなるほど精度は低下している。すなわち、kpが小さくなる(選ばれるF-termの数が増える)ほど精度が低下し、再現率が上がっていることがわかる。
【0066】
(6):文書間の類似度の計算の説明
学習データにおけるそれぞれの特許文書と、入力の特許文書の間の類似度を計算するために以下の四つの方法を利用できる。
【0067】
a)SMART の説明
文書分類装置は、まず、入力の特許文書からキーワードを取り出す。キーワードとしては、形態素解析技術を利用して、名詞を取り出しす。次に、学習データにある与えられた入力のテーマを持つすべての特許文書から、上記キーワードを少なくとも一つ含む文書を取り出す。文書分類装置(文書類似度算出部3)は、それぞれの取り出した文書の SimSMART を算出するために以下の式(3)を使う。 SimSMART を入力文書と学習データにあるそれぞれの特許文書との間の類似度として用いる。
【0068】
【数2】
JP0004925293B2_000003t.gif

【0069】
この式において、T は入力の特許文書と取り出された特許文書の両方に現れたキーワードの集合を意味し、tfはキーワードt が取り出された文書において出現した回数を意味し、avtfは取り出された文書において取り出されたキーワードそれぞれの出現の平均を意味し、qtf は入力の文書におけるキーワードt の出現した回数を意味し、utf は取り出された文書におけるキーワードの異なりの数を意味し、pivot は学習データの全文書における文書ごとのキーワードの異なりの数の平均を意味し、N は学習データにおける与えられた入力のテーマ分類をもつ特許文書の総数を意味し、n はキーワードt が現れた文書の数を意味する。
【0070】
SMART は、情報検索のキーワードの重み付け法のひとつである(引用文献;Singhal et al.,1996;Singhal,1997)。
【0071】
b)BM25の説明
文書分類装置は、まず、入力の特許文書からキーワードを取り出す。キーワードとしては、形態素解析技術を利用して、名詞を取り出した。次に、学習データにある与えられた入力のテーマ分類を持つすべての特許文書から、上記キーワードを少なくとも一つ含む文書を取り出す。文書分類装置(文書類似度算出部3)は、それぞれの取り出した文書の SimBM25を算出するために以下の式(6)を使う。 SimBM25を入力文書と学習データにあるそれぞれの特許文書との間の類似度として用いる。
【0072】
【数3】
JP0004925293B2_000004t.gif

【0073】
この式に置いてT 、tf、qtf 、N 、n は、SMART のものと同じである。dlは取り出した記事の長さであり、avdlは全文書での記事の長さの平均であり、k1、k3それとb は実験で定める定数である。 ruby-ir toolkitのデフォルト値として、k1=1 、 k3 =1000、 b=1 の値を利用した。BM25のオリジナルの式のlog { (N-n+0.5)/(n + 0.5)}の代りにlog(N/n)を利用した。これは、オリジナルの式だとマイナスのスコアを出力するためである。実験において修正した式の方が高い精度を出すことを確認した。
【0074】
BM25は、情報検索のキーワードの重み付け手法の一つである(引用文献;Robertson et al.,1994 ).
c)Tfidf の説明
文書分類装置は、まず、入力の特許文書からキーワードを取り出す。キーワードとしては、形態素解析技術を利用して、名詞を取り出した。次に、学習データにある与えられた入力のテーマ分類を持つすべての文書から、上記キーワードを少なくとも一つ含む文書を取り出す。文書分類装置(文書類似度算出部3)は、それぞれの取り出した文書の SimTfidf を算出するために以下の式(9)を使う。 SimTfidf を入力文書と学習データにあるそれぞれの文書との間の類似度として用いる。
【0075】
【数4】
JP0004925293B2_000005t.gif

【0076】
この式で、T 、tf、N 、 nは、 SMARTのものと同一である。
【0077】
d)Overlap の説明
文書分類装置は、まず、入力の特許文書からキーワードを取り出す。キーワードとしては、形態素解析技術を利用して、名詞を取り出した。次に、学習データにある与えられた入力のテーマ分類を持つすべての文書から、上記キーワードを少なくとも一つ含む文書を取り出す。文書分類装置(文書類似度算出部3)は、それぞれの取り出した文書の SimOverlap を算出するために以下の式(10)を使う。 SimOverlap を入力文書と学習データにあるそれぞれの文書との間の類似度として用いる。
【0078】
【数5】
JP0004925293B2_000006t.gif

【0079】
この式で、T は、 SMARTのものと同一である。
【0080】
(7):文書検索結果の評価の説明
特許文書のテーマ分類が与えられたときに、入力の日本語特許文書のF-termの分類を求める。この評価には、図5のようにF-measure (F値)を使かうことができる。F-measure は、再現率(Recall)の逆数と適合率(Precision) の逆数の平均の逆数である。再現率は、正解の分類のうち、正解の出力の割合(再現率が大きいと正解の漏れが少なくなる)であり、適合率は、すべての出力のうち、正解の出力の割合である。式で表現すると以下のようになる。
【0081】
【数6】
JP0004925293B2_000007t.gif

【0082】
(8):単語の認識の説明
a)形態素解析システムの説明
日本語を単語に分割するために、単語抽出部が行う形態素解析システムが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム茶筌http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
【0083】
これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
【0084】
学校 ガッコウ 学校 名詞-一般
へ ヘ へ 助詞-格助詞-一般
行く イク 行く 動詞-自立 五段・カ行促音便 基本型
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
【0085】
b)英語の品詞タグつけの説明
英語の品詞タグつけシステムとしては、次の Brillのものが有名である。
【0086】
Eric Brill, Transformation-Based Error-Driven Learning and
Natural Language Processing: A Case Study in Part-of-Speech Tagging,
Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
これは、英語文の各単語の品詞を推定してくれるものである。
【0087】
(9):表に基づく確信度付与の説明
a)kpを利用する場合の説明
予め問題と解答の組を大量に集める。問題は、F-termをふるべき特許であり、解答は、その特許のF-termである。これを評価データと呼ぶ。前記文書分類装置でいくつかのkpごとに、上記評価データでF-termを出力し評価し、そのときの精度(適合率)、再現率、F値等の確信度を求める。更に同じkpに対応する全ての特許のF-termの精度(適合率)、再現率、F値の平均値を求める。そうすると、kpと精度(適合率)、再現率、F値の対応表が完成する。
【0088】
次に、新しい特許が文書分類装置に入ってくると、F-termが出力される。各F-termがぎりぎり出力されるkpを求める。この求め方は、以下のようになる。
【0089】
あるF-termのスコア(Score )を最初のF-term(最もスコアの大きいF-term)のスコアで割った値がそのF-termがぎりぎり出力されるkpとなる。(kpの定義によりこうなる、式(2)を参照こと)。スコアは式(1)等を利用して求める。
【0090】
各F-termのkpが求まれば、先の対応表に基づいて、各F-termに対応する精度(適合率)、再現率、F値をくっつけて表示する。そのF-termまでのF-term群に対する精度(適合率) 、再現率、F値である(個々のF-termの精度(適合率)、再現率、F値ではない)。個々のF-termのものについては、後に説明する。
【0091】
以下、図面に基づいて説明する。図7は確信度付与装置の説明図である。図7において、確信度付与装置には、入力部1、出力部6、文書分類装置(問題解決手段)10、対応表作成部(対応関係作成手段)11、確信度付与部12、格納部(対応表)13が設けてある。
【0092】
入力部1は、情報を入力する入力手段である。出力部6は、情報を出力する出力手段である。文書分類装置10は、前に説明した文書の分類を行う文書分類手段(問題解決手段)である(図1、図2参照)。対応表作成部(対応関係作成手段)11は、kpと精度(適合率)、再現率、F値の対応関係(表)を作成する対応関係(表)作成手段である。確信度付与部12は、文書分類装置10で付与した分類に精度(適合率)、再現率、F値、正解率等の確信度を付与する確信度付与手段である。格納部(対応表)13は、対応表作成部11が作成した対応表を格納する格納手段である。
【0093】
図8は対応表作成処理フローチャートである。以下、図8の処理S21~S25にしたがって説明する。
【0094】
S21:入力部1より、予め問題と解答の組(ここでは特許文書とそのF-term)を大量に入力し、文書分類装置10の格納手段に格納する。
【0095】
S22:文書分類装置10は、前記入力された1つの特許文書と類似する他の特許文書を検索して分類を求める(F-termを求める)。
【0096】
S23:文書分類装置10は、前記類似する他の特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)のスコアを算出する。
【0097】
S24:対応表作成部11は、kpを変化させた時に文書分類装置10より出力されるそれぞれの分類(F-term)の確信度を求める。
【0098】
S25:対応表作成部11は、前記S21で入力した特許文書全てについて、文書分類装置10で分類を付与(F-termを求め)し、kpを変化させて確信度を求め、更に同じkpに対応する全ての特許文書の確信度の平均値を求め、対応表を作成する。
【0099】
図9は確信度付与処理フローチャートである。以下、図9の処理S31~S35にしたがって説明する。
【0100】
S31:入力部1より、新たな文書(F-termが付与されていない特許文書)を入力する。
【0101】
S32:文書分類装置10は、前記入力された特許文書と類似する特許文書(前記処理S21で入力された特許文書)を検索して分類を求める(F-termを求める)。
【0102】
S33:文書分類装置10は、前記類似する特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記付与した分類(F-term)のスコアを算出する。
【0103】
S34:確信度付与部12は、各分類(F-term)がぎりぎり出力されるkpを求める。
【0104】
S35:確信度付与部12は、格納部13の対応表から前記求めたkpに対応する確信度を各F-termに付与して出力部より出力する。
【0105】
このように、本発明は、文書分類に関する発明である。分類したい文書と類似した文書を、検索において高精度で知られるBM25やSMART の方式で収集し、その文書群で出現頻度の大きい分類にその文書を分類する。特に、一つの文書に複数の分類が付与される、Multi-class の分類問題を扱い、出現頻度の大きい分類のうち、どの分類までを、その文書の分類とするかを確信度により容易に決定することができる。
【0106】
特許文書には、複数の特許を分類するためのコードがふられている。そのコードは一般には人手で付与されているが、本発明を利用すれば、ある程度自動でもコードを付与することができるようになり、人手の作業を軽減する効果がある。
【0107】
なお、確信度付与部12で、確信度を付与して出力する分類(F-term)の数は、F値の最大のところまで、精度(適合率)がある値(規定値)以上のところまで、再現率がある値(規定値)以下のところまで出力する等を行うことにより、不要な出力を少なくすることができる。
【0108】
b)出力順位を利用する場合の説明
出力順位を利用する方法の場合、文書分類装置で出力する分類(F-term)をkj位までを出力システムとする。いくつかkjの値を変えて、このシステムで評価データの問題を解き、精度(適合率) 、再現率、F値の値を求める。そうすると、kj(順位)と精度(適合率)、再現率、F値の対応表が完成する。
【0109】
新しい特許が入ってくると、文書分類装置で先の方法でF-termを出力する。各F-termがぎりぎり出力されるkjを求める。すると、出力される順位がkjとなる( kj の定義によりこうなる、他の方法ではこの部分は異なった方法になる)。
【0110】
各Fterm のkjが求まれば、先の対応表に基づいて、各Fterm に対応する精度(適合率)、再現率、F値をくっつけて表示する。これは、そのF-termまでの文書群に対する精度(適合率)、再現率、F値であることに注意。(これは個々のF-termの精度(適合率)、再現率、F値でない。個々のF-termのものについて、以下の個々の値の算出の場合を参照のこと) 。
【0111】
図10は対応表作成処理フローチャートである。以下、図10の処理S41~S45にしたがって説明する(確信度付与装置は図7参照、但し、ここでは図7で説明したkpの代わりにkjを用いるものである)。
【0112】
S41:入力部1より、予め問題と解答の組(ここでは特許文書とそのF-term)を大量に入力し、文書分類装置10の格納手段に格納する。
【0113】
S42:文書分類装置10は、前記入力された1つの特許文書と類似する他の特許文書を検索して分類を求める(F-termを求める)。
【0114】
S43:文書分類装置10は、前記類似する他の特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)の順位kjを算出する。
【0115】
S44:対応表作成部11は、kjを変化させた時に文書分類装置10より出力されるそれぞれの分類(F-term)の確信度を求める。
【0116】
S45:対応表作成部11は、前記S41で入力した特許文書全てについて、文書分類装置10で分類を付与(F-termを求め)し、kjを変化させて確信度を求め、更に同じkjに対応する全ての特許文書の確信度の平均値を求め、対応表を作成する。
【0117】
図11は確信度付与処理フローチャートである。以下、図11の処理S51~S55にしたがって説明する(確信度付与装置は図7参照、但し、ここでは図7で説明したkpの代わりにkjを用いるものである)。
【0118】
S51:入力部1より、新たな文書(F-termが付与されていない特許文書)を入力する。
【0119】
S52:文書分類装置10は、前記入力された特許文書と類似する特許文書(前記処理S41で入力された特許文書)を検索して分類を求める(F-termを求める)。
【0120】
S53:文書分類装置10は、前記類似する特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)の順位kjを算出する。
【0121】
S54:確信度付与部12は、各F-termがぎりぎり出力されるkjを求める。
【0122】
S55:確信度付与部12は、格納部13の対応表から前記求めたkjに対応する確信度を各F-termに付与して出力部より出力する。
【0123】
c)スコア(Score )を利用する場合の説明
スコアを利用する方法の場合、文書分類装置で出力する分類(F-term)をスコアが kl 以上のものまでを出力システムとする。いくつかklの値を変えて、このシステムで評価データの問題を解き、精度(適合率)、再現率、F値の値を求める。そうすると、kl(スコア)と精度(適合率)、再現率、F値の対応表が完成する。
【0124】
新しい特許が入ってくると、文書分類装置は先の方法でF-termを出力する。各F-termがぎりぎり出力されるklを求める。ここで各F-termのスコアが kl となる。( kl の定義によりこうなる。他の方法ではこの部分は異なった方法になる) 。
【0125】
各Fterm のklが求まれば、先の対応表に基づいて、各Fterm に対応する精度(適合率)、再現率、F値をくっつけて表示する。(そのF-termまでの文書群に対する精度(適合率)、再現率、F値であることに注意。個々のF-termの精度(適合率)、再現率、F値でない。個々のF-termのものについては、以下の個々の値の算出の場合を参照)。
【0126】
図12は対応表作成処理フローチャートである。以下、図12の処理S61~S65にしたがって説明する(確信度付与装置は図7参照、但し、ここでは図7で説明したkpの代わりにklを用いるものである)。
【0127】
S61:入力部1より、予め問題と解答の組(ここでは特許文書とそのF-term)を大量に入力し、文書分類装置10の格納手段に格納する。
【0128】
S62:文書分類装置10は、前記入力された1つの特許文書と類似する他の特許文書を検索して分類を求める(F-termを求める)。
【0129】
S63:文書分類装置10は、前記類似する他の特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)のスコア(kl)を算出する。
【0130】
S64:対応表作成部11は、klを変化させた時に文書分類装置10より出力されるそれぞれの分類(F-term)の確信度を求める。
【0131】
S65:対応表作成部11は、前記S61で入力した特許文書全てについて、文書分類装置10で分類を付与(F-termを求め)し、klを変化させて確信度を求め、更に同じklに対応する全ての特許文書の確信度の平均値を求め、対応表を作成する。
【0132】
図13は確信度付与処理フローチャートである。以下、図13の処理S71~S75にしたがって説明する(確信度付与装置は図7参照、但し、ここでは図7で説明したkpの代わりにklを用いるものである)。
【0133】
S71:入力部1より、新たな文書(F-termが付与されていない特許文書)を入力する。
【0134】
S72:文書分類装置10は、前記入力された特許文書と類似する特許文書(前記処理S61で入力された特許文書)を検索して分類を求める(F-termを求める)。
【0135】
S73:文書分類装置10は、前記類似する特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)のスコアklを算出する。
【0136】
S74:確信度付与部12は、各F-termがぎりぎり出力されるklを求める。
【0137】
S75:確信度付与部12は、格納部13の対応表から前記求めたklに対応する確信度を各F-termに付与して出力部より出力する。
【0138】
以上 kp 、順位、スコアを利用する方法を示したが、順序化して出力するシステムであれば、他のものを利用することもできる。
【0139】
§2:情報検索の場合の説明
(1):情報検索システム(情報検索装置)の説明
キーワードから文書を検索する技術(文書検索の技術)は、例えば、次のものがある。
【0140】
(単語群Aをより多く含む記事の抽出方法の説明)
情報検索の基礎知識として以下の式がある。ここで、Score(D)が大きいものを取る。
【0141】
(1) 基本的な方法 (tf・idf 法) の説明
score(D) = Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
Wはユーザーが入力するキーワードの集合
tf(w,D)は文書Dでのwの出現回数
df(w)は全文書でWが出現した文書の数
Nは文書の総数
score(D) が高い文書を検索結果として出力する。
【0142】
(2) Robertson らの Okapi weightingの説明
(文献)
村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均“位置情報と分野情報を用いた情報検索”自然言語処理(言語処理学会誌) 2000年 4月,7 巻,2 号, p.141 ~ p.160
の (1)式、が性能がよいことが知られている。これの式(1) のΣで積を取る前の tf 項とidf 項の積が Okapiのウェイティング法になって、この値を単語の重みに使う。
【0143】
Okapi の式なら
Score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w ∈W で加算
lengthは記事Dの長さ、delta は記事の長さの平均、
記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。
【0144】
さらに、以下の情報検索を行うこともできる。
【0145】
(Okapi の参考文献) S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, and M. Gatford Okapi at TREC-3, TREC-3, 1994
(SMART の参考文献)
Amit Singhal AT&T at TREC-6, TREC-6, 1997
より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらの Okapiや SMARTの式を用いてもよい。
【0146】
これらの方法では、tf・idf だけでなく、記事の長さなども利用して、より高精度な情報検索を行うことができる。
【0147】
今回の、単語群Aをより多く含む記事の抽出方法では、さらに、Rocchio's formula を使うことができる。
【0148】
(文献)
"J. J. Rocchio", "Relevance feedback in information retrieval","The SMART retrieval System", "Edited by G. Salton", "Prentice Hall, Inc.","page 313-323", 1971
この方法は、log(N/df(w))のかわりに、
{E(t) + k_af * (RatioC(t) - RatioD(t))} *log(N/df(w))
を使う。
【0149】
E(t) = 1 (元の検索にあったキーワード)
= 0 (それ以外)
RatioC(t) は記事群Bでのt の出現率
RatioD(t) は記事群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でScore(D)を求めて、その値が大きいものほど、単語群Aをより多く含む記事として取り出すものである。
【0150】
Score(D)のΣの加算の際に足す単語wの集合Wは、元のキーワードと、単語群Aの両方とする。ただし、元のキーワードと、単語群Aは重ならないようにする。
【0151】
また、他の方法として、Score(D)のΣの加算の際に足す。単語wの集合Wは、単語群Aのみとする。ただし、元のキーワードと、単語群Aは重ならないようにする。
【0152】
ここでは Roccio の式で複雑な方法をとったが、単純に、単語群Aの単語の出現回数の和が大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよいし、また、単語群Aの出現の異なりの大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよい。
【0153】
(2):確信度付与の説明
予め問題と解答の組を大量に集める。問題は、情報検索の質問(例えば、企業合併に関する記事を取り出すこと) であり、解答は、その質問に対応する記事群である。これを評価データと呼ぶ、ここで上記(1)で説明したような情報検索システム(情報検索装置)を一つ用意する。
【0154】
質問から、形態素解析して、名詞をキーワードと取り出して、そのキーワードを利用して上記情報検索システムで記事を取り出す。そうすると、各記事はOkapi の式ならScore(D)の値を持ち、この値の大きいものが出力される。
【0155】
a)kpの値を利用する場合の説明
kpの値を利用する方法の場合は、ある質問の場合のScore(D)の最大値を Score_max とする。そして、Score _max * kpの文書まで出力する。いくつかkpの値を変えて、このシステムで評価データの問題を解き、精度(適合率) 、再現率、F値等の(確信度)の値を求める。そうすると、kpと精度(適合率) 、再現率、F値の対応表が完成する。
【0156】
次に、新しい情報検索の質問が入ってくる。先の方法(情報検索システム)で文書を出力する。各文書がぎりぎり出力されるkpを求める。
【0157】
この求め方は、以下のようにする。
【0158】
ある文書のScore を最初の文書(最もScore の大きい文書)のScore で割った値がその文書がぎりぎり出力されるkpとなる。( kp の定義によりこうなる。順位による方法や他の方法ではこの部分は異なった方法になる) 。
【0159】
各文書のkpが求まれば、先の対応表に基づいて、各文書に対応する精度(適合率)、再現率、F値をくっつけて表示する。(これは、その文書までの文書群に対する精度(適合率)、再現率、F値であることに注意。個々の文書の精度(適合率)、再現率、F値でない。個々の文書のものについては、個々の値の算出の場合を参照) 。
【0160】
図14は対応表作成処理フローチャートである。以下、図14の処理S81~S85にしたがって説明する(確信度付与装置は図7参照、但し、ここでは図7の文書分類装置の代わりに情報検索システム(情報検索装置)を用いるものである)。
【0161】
S81:入力部1より、予め質問(問題)と記事(解答)の組を大量に入力し、情報検索システムの格納手段に格納する。
【0162】
S82:情報検索システムは、前記入力されたある1つの質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、前記入力された記事(解答)の情報検索を行って記事を取り出す。
【0163】
S83:情報検索システムは、Score _max * kpの文書(記事)まで出力する。
【0164】
S84:対応表作成部11は、kpを変化させた時に情報検索システムより出力されるそれぞれの記事の確信度を求める。
【0165】
S85:対応表作成部11は、前記S81で入力した質問全てについて、情報検索システムで記事を出力し、kpを変化させて確信度を求め、更に同じkpに対応する全ての記事の確信度の平均値を求め、対応表を作成する(対応表は格納部13に格納する)。
【0166】
図15は確信度付与処理フローチャートである。以下、図15の処理S91~S94にしたがって説明する。
【0167】
S91:入力部1より、新たな情報検索の質問を入力する。
【0168】
S92:情報検索システムは、前記入力された質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、情報検索を行って記事を取り出す。
【0169】
S93:確信度付与部12は、情報検索システムにより、各記事がぎりぎり出力されるkpを求める。
【0170】
S94:確信度付与部12は、格納部13の対応表から前記求めたkpに対応する確信度を記事に付与して出力部より出力する。
【0171】
b)出力順位を利用する場合の説明
出力順位を利用する方法の場合は、kj位までの文書(記事)を出力システムとする。これは、いくつかkjの値を変えて、この情報検索システムで、評価データの問題を解き、精度(適合率) 、再現率、F値の値を求める。そうすると、kjと精度(適合率) 、再現率、F値の対応表が完成する。
【0172】
次に、新しい情報検索の質問が入ってくると、先の方法(対応表作成時の)で文書を出力する。そして、各文書がぎりぎり出力されるkjを求める。この出力される順位がkjとなる。(これはkjの定義によりこうなる。他の方法ではこの部分は異なった方法になる)。各文書のkjが求まれば、先の対応表に基づいて、各文書に対応する精度(適合率)、再現率、F値をくっつけて表示する。(その文書までの文書群に対する精度(適合率)、再現率、F値であることに注意、個々の文書の精度(適合率)、再現率、F値でない。個々の文書のものについては、以下の個々の値の算出の場合を参照)。
【0173】
図16は対応表作成処理フローチャートである。以下、図16の処理S101~S105にしたがって説明する(確信度付与装置は図7参照、但し、ここでは図7の文書分類装置の代わりに情報検索システムを用い、kpの代わりにkjを用いるものである)。
【0174】
S101:入力部1より、予め質問(問題)と記事(解答)の組を大量に入力し、情報検索システムの格納手段に格納する。
【0175】
S102:情報検索システムは、前記入力されたある1つの質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、記事(解答)の情報検索を行って記事を取り出す。
【0176】
S103:情報検索システムは、kj位までの文書(記事)を出力する。
【0177】
S104:対応表作成部11は、kjを変化させた時に情報検索システムより出力されるそれぞれの文書(記事)の確信度を求める。
【0178】
S105:対応表作成部11は、前記S101で入力した質問全てについて、情報検索システムで文書(記事)を出力し、kjを変化させて確信度を求め、更に同じkjに対応する全ての文書(記事)の確信度の平均値を求め、対応表を作成する(対応表は格納部13に格納する)。
【0179】
図17は確信度付与処理フローチャートである。以下、図17の処理S111~S114にしたがって説明する(確信度付与装置は図7参照、但し、ここでは図7の文書分類装置の代わりに情報検索システムを用い、kpの代わりにkjを用いるものである)。
【0180】
S111:入力部1より、新たな情報検索の質問を入力する。
【0181】
S112:情報検索システムは、前記入力された質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、情報検索を行って記事を取り出す。
【0182】
S113:確信度付与部12は、情報検索システムにより、各記事がぎりぎり出力されるkjを求める。
【0183】
S114:確信度付与部12は、格納部13の対応表から前記求めたkjに対応する確信度を記事に付与して出力部より出力する。
【0184】
c)スコア(Score )を利用する場合の説明
Score を利用する方法の場合は、Score が kl 以上の文書までを出力システムとする。いくつか、klの値を変えて、この情報検索システムで、評価データの問題を解き、精度(適合率)、再現率、F値の値を求める。そうすると、Score であるklと精度(適合率)、再現率、F値の対応表が完成する。
【0185】
次に、新しい情報検索の質問が入ってくる。先の方法(対応表の作成方法)で文書を出力する。ここで、各文書がぎりぎり出力されるklを求める。すると各文書の Scoreが kl となる。( kl の定義によりこうなる。他の方法ではこの部分は異なった方法になる)。
【0186】
各文書のklが求まれば、先の対応表に基づいて、各文書に対応する精度(適合率)、再現率、F値をくっつけて表示する。(その文書までの文書(記事)群に対する精度(適合率)、再現率、F値であることに注意。個々の文書の精度(適合率)、再現率、F値でない。個々の文書のものについては、以下の個々の値の算出の場合を参照)
図18は対応表作成処理フローチャートである。以下、図18の処理S121~S125にしたがって説明する(確信度付与装置は図7参照、但し、ここでは図7の文書分類装置の代わりに情報検索システムを用い、kpの代わりにklを用いるものである)。
【0187】
S121:入力部1より、予め質問(問題)と記事(解答)の組を大量に入力し、情報検索システムの格納手段に格納する。
【0188】
S122:情報検索システムは、前記入力されたある1つの質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、記事(解答)の情報検索を行って記事を取り出す。
【0189】
S123:情報検索システムは、Score がkl以上の文書(記事)までを出力する。
【0190】
S124:対応表作成部11は、klを変化させた時に情報検索システムより出力されるそれぞれの文書(記事)の確信度を求める。
【0191】
S125:対応表作成部11は、前記S121で入力した質問全てについて、情報検索システムで文書(記事)を出力し、klを変化させて確信度を求め、更に同じklに対応する全ての文書(記事)の確信度の平均値を求め、対応表を作成する(対応表は格納部13に格納する)。
【0192】
図19は確信度付与処理フローチャートである。以下、図19の処理S131~S134にしたがって説明する(確信度付与装置は図7参照、但し、ここでは図7の文書分類装置の代わりに情報検索システムを用い、kpの代わりにklを用いるものである)。
【0193】
S131:入力部1より、新たな情報検索の質問を入力する。
【0194】
S132:情報検索システムは、前記入力された質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、情報検索を行って記事を取り出す。
【0195】
S133:確信度付与部12は、情報検索システムにより、各記事がぎりぎり出力されるklを求める。
【0196】
S134:確信度付与部12は、格納部13の対応表から前記求めたklに対応する確信度を記事に付与して出力部より出力する。
【0197】
d)klのスコアの正規化の説明
klとしては、スコアの正規化を行ったものを用いてもよい。スコアの正規化としてはいくつか方法がある。前記(1):情報検索システムの説明で説明した Okapiの式のΣで単語分だけ加算するが、その単語の数で、元のスコアを割るという方法が最も単純な正規化としてありえる。
【0198】
次に、W の単語が1回ずつ出現する記事を想定して、その記事のスコアで、元のスコアを割るという方法がある。
【0199】
また、方法自体を変更して、Σで加算するということをやめて、ベクトルにしてから、スコアを求めることで正規化と同じ効果をもたせてもよい。
【0200】
例えば、あらゆる種類の単語分だけ、要素とするベクトルを作成して、各ベクトルの要素の値は、前記 Okapiの式のΣの内部の部分の式を利用して求めて、入力のキーワードでもベクトルを作成し、検索対象の文書でもベクトルを作成する。これらベクトルの角度をスコアとする。角度を利用することで、正規化と同じ効果をもつ。
【0201】
Fタームの話だと、BM25と Okapiはほぼ同じ式だが、BM25の式(6)のΣで単語分だけ加算するが、その単語の数で、元のスコアを割るという方法が最も単純な正規化としてありえる。
【0202】
次に、W の単語が1回ずつ出現する記事を想定してその記事のスコアで、元のスコアを割るという方法がある。
【0203】
また、方法自体を変更して、Σで加算するということをやめて、ベクトルにしてから、スコアを求めることで正規化と同じ効果をもたせてもよい。例えば、あらゆる種類の単語分だけ、要素とするベクトルを作成して、各ベクトルの要素の値は、入力の単語については、式(8)を使い文書の単語については、式(7)を使い、求めて、入力のキーワードでもベクトルを作成し、検索対象の文書でもベクトルを作成する。これらベクトルの角度をスコアとする。角度を利用することで、正規化と同じ効果をもつ。
【0204】
e)観点の異なる2つの所定値を使う場合の説明
例えば、kpと kl の二つを使うことを考える。kp = 0, 0.1, 0.2, ,, 1.0と kj = 1, 2, 3, ,, 1000の二つを使うことを考える。これらのあらゆる組み合わせの場合の、確信度の平均を求めて、対応表を作る。
【0205】
kp = 0, kj = 1 の場合の確信度 ...
kp = 0.1, kj = 1 の場合の確信度 ...
...
kp = 0, kj = 2 の場合の確信度 ...
kp = 0.1, kj = 2 の場合の確信度 ...
...
...
kp = 0, kj = 1000 の場合の確信度 ...
kp = 0.1, kj = 1000 の場合の確信度 ...
...
上のように対応表が求まる.
ここで、あたらしい問題が入力される。そして、解答を出力させる。解答を出力させる時点の kp, kj を求める。このkp, kjは、1つのときと同じ方法で求めれる。kp, kjがわかれば上記の対応表を調べて、その場合の確信度を求めて出力する。解答を出力させる時点の kp, kj とぴったり同じときのデータが対応表にない場合は補間処理を行う。
【0206】
例えば、このあと、新しい入力で kp が kp1で kj が kj1であったとする。そして、kp1 , kj1 の場合の値が表にのっていないとする。そうすると、ある種の補間処理が必要になる。その場合は、表にのっている、kp1 と最も近い値の kp と、kj1 と最も近い値の kj との組み合わせの時点の値を使ってもいいし、表にのっている、kp1 をはさむ二つの kp 、kj1 をはさむ二つの kj を用い、二つの kp と二つの kj から kp, kj をひとつずつ選ぶ全ての組み合わせの4つのデータの平均を使ってもよい。
【0207】
また、表にのっているkp1 をはさむ二つの kp の2つのデータ kp2, kp3 (kp2>kp>kp3)をkj1 をはさむ二つの kj の2つのデータ kj2, kj3 (kj2>kj>kj3)を用い、kp2, kj2のときの確信度を p(2,2) 、kp3, kj2のときの確信度を p(3,2) 、kp2, kj3のときの確信度を p(2,3) 、kp3, kj3のときの確信度を p(3,3) とし、
r(2,2) = sqrt( (kp-kp2) ^2 + a(kj-kj2) ^2 )
r(3,2) = sqrt( (kp-kp3) ^2 + a(kj-kj2) ^2 )
r(2,3) = sqrt( (kp-kp2) ^2 + a(kj-kj3) ^2 )
r(3,3) = sqrt( (kp-kp3) ^2 + a(kj-kj3) ^2 )
として,
p(2,2)/r(2,2) + p(3,2)/r(3,2) + p(2,3)/r(2,3) + p(3,3)/r(3,3)

1/r(2,2) + 1/r(3,2) + 1/r(2,3) + 1/r(3,3)
で割ったものを確信度に用いてよい。
【0208】
ここで、 aは定数であり、あらかじめ実験で定めるか、システム利用者が予め値を与える。^はべき乗を意味し、sqrtは平方根を意味する。これに類する方法でもよい。他の補間方法でもよい。kp kj klなど3つ以上使う場合も同様である。
【0209】
§3:個々の値の算出の説明
(1):文書分類装置を用いる場合の説明
a)kpの値を利用する場合の説明
個々の値の算出の場合は、予め問題と解答の組を大量に集める。問題は、F-termをふるべき特許、解答は、その特許のF-termである。これを評価データと呼ぶ。
【0210】
前記文書分類装置(特許文書分類装置)で上記評価データでF-termを出力する。ここで各F-termがぎりぎり出力されるkpを求める。この求め方は、以下のようにする。
【0211】
あるF-termのスコア(Score )を最初のF-term(最もスコアの大きいF-term)のスコアで割った値がそのF-termがぎりぎり出力されるkpとなる。(kpの定義によりこうなる、式(2)を参照のこと、順位による方法や他の方法ではこの部分は異なった方法になることに注意) スコアは式(1)等を利用して求める。
【0212】
前記出力された上記評価データの各F-termごとにそれが正解しているかを調べて、各kpの時の正解率を求める。更に同じkpに対応する全ての上記評価データ(特許文書)のF-termの正解率の平均値を求める。そうすると、kpと正解率の対応表が完成する。
【0213】
新しい特許(分類が付与されていない)が入ってくると、前記文書分類装置でF-termを出力する。各F-termがぎりぎり出力されるkpを求める。この求め方は、上記対応表作成の場合と同様であり、あるF-termのスコアを最初のF-term(最もScore の大きいF-term) のスコアで割った値がそのF-termがぎりぎり出力されるkpとなる。(kpの定義によりこうなる、式(2)を参照のこと、順位による方法や他の方法ではこの部分は異なった方法になることに注意) スコアは式(1)等を利用して求める。
【0214】
各F-termのkpが求まれば、先の対応表に基づいて、各F-termに対応する正解率をくっつけて表示する。(この正解率は、個々のF-termの正解率であることに注意。そのF-termまでのF-term群に対する精度(適合率) 、再現率、F値などとは異なるものである。)
図20は対応表作成処理フローチャートである。以下、図20の処理S141~S145にしたがって説明する(確信度付与装置は図7参照)。
【0215】
S141:入力部1より、予め問題と解答の組(ここでは特許文書とそのF-term)を大量に入力し、文書分類装置10の格納手段に格納する。
【0216】
S142:文書分類装置10は、前記入力された1つの特許文書と類似する他の特許文書を検索して分類を求める(F-termを求める)。
【0217】
S143:文書分類装置10は、前記類似する他の特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)のスコアを算出する。
【0218】
S144:対応表作成部11は、各分類(F-term)がきりぎり出力されるkpを求め、各分類(F-term)ごとにそれが正解しているかを調べて、各kpのときの正解率を求める。
【0219】
S145:対応表作成部11は、前記S141で入力した特許文書全てについて、文書分類装置10で分類を付与(F-termを求め)し、各分類(F-term)がきりぎり出力されるkpを求め、更に該同じkpに対応する全ての特許文書の正解率の平均値を求め、対応表を作成する(対応表は格納手段13に格納される)。
【0220】
図21は確信度付与処理フローチャートである。以下、図21の処理S151~S155にしたがって説明する。
【0221】
S151:入力部1より、新たな文書(F-termが付与されていない特許文書)を入力する。
【0222】
S152:文書分類装置10は、前記入力された特許文書と類似する特許文書(前記処理S141で入力されたの特許文書)を検索して分類を求める(F-termを求める)。
【0223】
S153:文書分類装置10は、前記類似する特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記付与した分類(F-term)のスコアを算出する。
【0224】
S154:確信度付与部12は、各分類(F-term)がぎりぎり出力されるkpを求める。
【0225】
S155:確信度付与部12は、格納部13の対応表から前記求めたkpに対応する確信度を各F-termに付与して出力部より出力する。
【0226】
b)出力順位を利用する場合の説明
出力順位を利用する方法の場合は、F-termを出力システム(前記特許文書分類装置)とする。このシステムで評価データの問題を解き、kj個目の出力のF-termがあっているかまちがっているかを調べて、kj個目の出力の正解率を求める。そうすると、kjと正解率の対応表が完成する。
【0227】
新しい特許が入ってくると、先の方法(特許文書分類装置)でF-termを出力する。そして、各F-termがぎりぎり出力されるkjを求める。そのF-termが出力される順位がkjとなる。( kj の定義によりこうなる。他の方法ではこの部分は異なった方法になる)。
【0228】
各Fterm のkjが求まれば、先の対応表に基づいて、各Fterm に対応する正解率をくっつけて表示する。
【0229】
図22は対応表作成処理フローチャートである。以下、図22の処理S161~S165にしたがって説明する(確信度付与装置は図7参照)。
【0230】
S161:入力部1より、予め問題と解答の組(ここでは特許文書とそのF-term)を大量に入力し、文書分類装置10の格納手段に格納する。
【0231】
S162:文書分類装置10は、前記入力された1つの特許文書と類似する他の特許文書を検索して分類を求める(F-termを求める)。
【0232】
S163:文書分類装置10は、前記類似する他の特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)の順位kjを算出する。
【0233】
S164:対応表作成部11は、kj個目の分類(F-term)の出力があっているか間違っているかを調べて、kj個目の出力の正解率を求める。
【0234】
S165:対応表作成部11は、前記S161で入力した特許文書全てについて、kj個目の出力の正解率を求め、更に同じkjに対応する全ての特許文書の正解率の平均値を求め、対応表を作成する(対応表は格納手段13に格納される)。
【0235】
図23は確信度付与処理フローチャートである。以下、図23の処理S171~S175にしたがって説明する(確信度付与装置は図7参照)。
【0236】
S171:入力部1より、新たな文書(F-termが付与されていない特許文書)を入力する。
【0237】
S172:文書分類装置10は、前記入力された特許文書と類似する特許文書(前記処理S161で入力されたの特許文書)を検索して分類を求める(F-termを求める)。
【0238】
S173:文書分類装置10は、前記類似する特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)の順位kjを算出する。
【0239】
S174:確信度付与部12は、各F-termがぎりぎり出力されるkjを求める。
【0240】
S175:確信度付与部12は、格納部13の対応表から前記求めたkjに対応する確信度を各F-termに付与して出力部より出力する。
【0241】
c)スコア(score )を利用する場合の説明
スコアを利用する方法の場合は、F-termを出力システム(前記特許文書分類装置)を使用する。このシステムで評価データの問題を解き、出力される各F-termを評価する。F-termのスコアが kl のものについて、そのF-termがあっているかどうかを調べて、klの場合の正解率を求める。これをあらゆるklについて求める。そうすると、klと正解率の対応表が完成する。
【0242】
新しい特許(F-termが付与されていない)が入ってくると、特許文書分類装置でF-termを出力する。ここで各F-termがぎりぎり出力されるklを求める。すると各F-termのスコアが kl となる。( kl の定義によりこうなる。他の方法ではこの部分は異なった方法になる)
各Fterm のklが求まれば、先の対応表に基づいて、各Fterm に対応する正解率をくっつけて表示する。
【0243】
図24は対応表作成処理フローチャートである。以下、図24の処理S181~S185にしたがって説明する(確信度付与装置は図7参照)。
【0244】
S181:入力部1より、予め問題と解答の組(ここでは特許文書とそのF-term)を大量に入力し、文書分類装置10の格納手段に格納する。
【0245】
S182:文書分類装置10は、前記入力された1つの特許文書と類似する他の特許文書を検索して分類を求める(F-termを求める)。
【0246】
S183:文書分類装置10は、前記類似する他の特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)のスコア(kl)を算出する。
【0247】
S184:対応表作成部11は、F-termのスコアが kl のものについて、そのF-termがあっているかどうかを調べて、klの場合の正解率を求める。
【0248】
S185:対応表作成部11は、これを前記S181で入力した特許文書の分類(F-term)のあらゆるklについてその正解率を求める。そうすると、klと正解率の対応表が完成する(対応表は格納手段13に格納される)。
【0249】
図25は確信度付与処理フローチャートである。以下、図25の処理S191~S195にしたがって説明する(確信度付与装置は図7参照)。
【0250】
S191:入力部1より、新たな文書(F-termが付与されていない特許文書)を入力する。
【0251】
S192:文書分類装置10は、前記入力された特許文書と類似する特許文書(前記処理S181で入力されたの特許文書)を検索して分類を求める(F-termを求める)。
【0252】
S193:文書分類装置10は、前記類似する特許文書の分類(F-term)が何個の特許文書に現れたか等により、前記求めた分類(F-term)のスコア(kl)を算出する。
【0253】
S194:確信度付与部12は、各F-termがぎりぎり出力されるklを求める。
【0254】
S195:確信度付与部12は、格納部13の対応表から前記求めたklに対応する正解率を各F-termに付与して出力部より出力する。
【0255】
(2):情報検索装置を用いる場合の説明
予め問題と解答の組を大量に集める。問題は、情報検索の質問(例えば、企業合併に関する記事を取り出すこと) であり、解答は、その質問に対応する記事(文書)群である。これを評価データと呼ぶ、ここで前に説明したような情報検索システム(情報検索装置)を一つ用意する。
【0256】
質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して上記情報検索システムで記事を取り出す。そうすると、各記事はOkapi の式ならScore(D)の値を持ち、この値の大きいものが出力される。
【0257】
a)kpの値を利用する場合の説明
kpの値を利用する方法の場合は、ある質問の場合のScore(D)の最大値を Score_max とする。そして、Score _max * kpの記事(文書)まで出力する。
【0258】
前記情報検索システムで上記評価データで記事(文書)群を出力する。ここで各記事(文書)がぎりぎり出力されるkpを求める。この求め方は、以下のようにする。
【0259】
ある記事のスコア(Score )を最初の記事(最もスコアの大きい記事)のスコアで割った値がその記事がぎりぎり出力されるkpとなる。(kpの定義によりこうなる、式(2)を参照のこと、順位による方法や他の方法ではこの部分は異なった方法になることに注意) スコアは式(1)等を利用して求める。
【0260】
前記出力された上記評価データの各記事ごとにそれが正解しているかを調べて、各kpの時の正解率を求める。更に同じkpに対応する全ての上記評価データ(質問)の記事の正解率の平均値を求める。そうすると、kpと正解率の対応表が完成する。
【0261】
新しい情報検索の質問が入ってくると、前記情報検索システムで記事を出力する。各記事がぎりぎり出力されるkpを求める。この求め方は、上記対応表作成の場合と同様であり、ある記事のスコアを最初の記事(最もScore の大きい記事) のスコアで割った値がその記事がぎりぎり出力されるkpとなる。(kpの定義によりこうなる、式(2)を参照のこと、順位による方法や他の方法ではこの部分は異なった方法になることに注意) スコアは式(1)等を利用して求める。
【0262】
各記事のkpが求まれば、先の対応表に基づいて、各記事に対応する正解率をくっつけて表示する。(この正解率は、個々のF-termの正解率であることに注意。そのF-termまでのF-term群に対する精度(適合率) 、再現率、F値などとは異なるものである。)
図26は対応表作成処理フローチャートである。以下、図26の処理S201~S205にしたがって説明する(確信度付与装置は図7参照、但し、図7の文書分類装置の代わりに情報検索システム(装置)を用いる)。
【0263】
S201:入力部1より、予め問題と解答の組(ここでは情報検索の質問とその質問に対応する記事群)を大量に入力し、情報検索システムの格納手段に格納する。
【0264】
S202:情報検索システムは、前記入力されたある1つの質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、前記入力された記事群の情報検索を行って記事を取り出す。
【0265】
S203:情報検索システムは、Score _max * kpの文書(記事)まで出力する。
【0266】
S204:対応表作成部11は、各記事がきりぎり出力されるkpを求め、各記事ごとにそれが正解しているかを調べて、各kpのときの正解率を求める。
【0267】
S205:対応表作成部11は、前記S201で入力した質問全てについて、情報検索システムで記事を検索し、各記事がきりぎり出力されるkpを求め、更に該同じkpに対応する全ての特許文書の正解率の平均値を求め、対応表を作成する(対応表は格納手段13に格納される)。
【0268】
図27は確信度付与処理フローチャートである。以下、図27の処理S211~S214にしたがって説明する。
【0269】
S211:入力部1より、新たな情報検索の質問を入力する。
【0270】
S212:情報検索システムは、前記入力された質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、情報検索を行って記事を取り出す。
【0271】
S213:確信度付与部12は、各記事がぎりぎり出力されるkpを求める。
【0272】
S214:確信度付与部12は、格納部13の対応表から前記求めたkpに対応する確信度である正解率を各記事に付与して出力部より出力する。
【0273】
b)出力順位を利用する場合の説明
出力順位を利用する方法の場合は、情報検索システムを用いる。このシステムで評価データの問題を解き、kj個目の出力の記事があっているかまちがっているかを調べて、kj個目の出力の正解率を求める。そうすると、kjと正解率の対応表が完成する。
【0274】
新しい特許が入ってくると、先の方法(特許情報検索システム)で記事を出力する。そして、各記事がぎりぎり出力されるkjを求める。そのF-termが出力される順位がkjとなる。( kj の定義によりこうなる。他の方法ではこの部分は異なった方法になる)。
【0275】
各Fterm のkjが求まれば、先の対応表に基づいて、各Fterm に対応する正解率をくっつけて表示する。
【0276】
図28は対応表作成処理フローチャートである。以下、図28の処理S221~S225にしたがって説明する(確信度付与装置は図7参照、但し、図7の文書分類装置の代わりに情報検索システム(装置)を用いる)。
【0277】
S221:入力部1より、予め問題と解答の組(ここでは情報検索の質問とその質問に対応する記事群)を大量に入力し、情報検索システムの格納手段に格納する。
【0278】
S222:情報検索システムは、前記入力されたある1つの質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、前記入力された記事群の情報検索を行って記事を取り出す。
【0279】
S223:情報検索システムは、前記取り出した記事の順位kjをまで出力する。
【0280】
S224:対応表作成部11は、kj個目の記事の出力があっているか間違っているかを調べて、kj個目の出力の正解率を求める。
【0281】
S225:対応表作成部11は、前記S221で入力した質問全てについて、kj個目の出力の正解率を求め、更に同じkjに対応する全ての記事の正解率の平均値を求め、対応表を作成する(対応表は格納手段13に格納される)。
【0282】
図29は確信度付与処理フローチャートである。以下、図29の処理S231~S234にしたがって説明する(確信度付与装置は図7参照、但し、図7の文書分類装置の代わりに情報検索システム(装置)を用いる)。
【0283】
S231:入力部1より、新たな情報検索の質問を入力する。
【0284】
S232:情報検索システムは、前記入力された質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、情報検索を行って記事を取り出す。
【0285】
S233:確信度付与部12は、各記事がぎりぎり出力されるkjを求める。
【0286】
S234:確信度付与部12は、格納部13の対応表から前記求めたkjに対応する確信度である正解率を各記事に付与して出力部より出力する。
【0287】
c)スコア(Score )を利用する場合の説明
スコアを利用する方法の場合は、前記情報検索システムを使用する。このシステムで評価データの問題を解き、出力される各記事を評価する。記事のスコアが kl のものについて、その記事があっているかどうかを調べて、klの場合の正解率を求める。これをあらゆるklについて求める。そうすると、klと正解率の対応表が完成する。
【0288】
新しい情報検索の質問が入ってくると、情報検索システムで記事を出力する。ここで各記事がぎりぎり出力されるklを求める。すると各記事のスコアが kl となる。( kl の定義によりこうなる。他の方法ではこの部分は異なった方法になる)
各記事のklが求まれば、先の対応表に基づいて、各記事に対応する正解率をくっつけて表示する。
【0289】
図30は対応表作成処理フローチャートである。以下、図30の処理S241~S245にしたがって説明する(確信度付与装置は図7参照、但し、図7の文書分類装置の代わりに情報検索システム(装置)を用いる)。
【0290】
S241:入力部1より、予め問題と解答の組(ここでは情報検索の質問とその質問に対応する記事群)を大量に入力し、情報検索システムの格納手段に格納する。
【0291】
S242:情報検索システムは、前記入力されたある1つの質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、前記入力された記事群の情報検索を行って記事を取り出す。
【0292】
S243:情報検索システムは、スコアがkl以上の記事を出力する。
【0293】
S244:対応表作成部11は、記事のスコアが kl のものについて、その記事があっているかどうかを調べて、klの場合の正解率を求める。
【0294】
S245:対応表作成部11は、これを前記S241で入力した質問全てについて、記事を出力し、同じklに対応する正解率の平均値を求め、klと正解率の対応表が完成する(対応表は格納手段13に格納される)。
【0295】
図31は確信度付与処理フローチャートである。以下、図31の処理S251~S254にしたがって説明する(確信度付与装置は図7参照、但し、図7の文書分類装置の代わりに情報検索システム(装置)を用いる)。
【0296】
S251:入力部1より、新たな情報検索の質問を入力する。
【0297】
S252:情報検索システムは、前記入力された質問から、形態素解析して、名詞をキーワードとして取り出して、そのキーワードを利用して、情報検索を行って記事を取り出す。
【0298】
S253:確信度付与部12は、各記事がぎりぎり出力されるklを求める。
【0299】
S254:確信度付与部12は、格納部13の対応表から前記求めたklに対応する確信度である正解率を各記事に付与して出力部より出力する。
【0300】
以上 kp 、順位、スコアを利用する方法を示したが、順序化して出力する他のものを利用することができる。
【0301】
(3):データの補間、補正の説明
表(対応表)に基づく方法で、例えば、kpと正解率の対応表が作成できたとする。このあと、新しい入力で kp が kp1の場合の正解率が表から必要になったが、kp1 の値が表にのっていないとする。そうすると、ある種の補間処理が必要になる。その場合は、表にのっている、kp1 と最も近い値の kp の部分を kp1の代りにつかってもいいし、表にのっている、kp1 をはさむ二つの kp の2行のデータを用い、その2行のデータの正解率の平均を kp1の正解率としてもよい。
【0302】
また、表にのっている、kp1 をはさむ二つの kp の2行のデータ kp2、kp3 (kp2>kp>kp3)を用い、その2行のデータの正解率 pr2、pr3 を利用して
〔(kp -kp3) pr2 + (kp2 - kp) pr3〕/〔(kp2 - kp) + (kp -kp3)〕
を正解率としてもよい。その他の補完処理により kp に対応する正解率を求めてもよい。
【0303】
また、kpと正解率の対に対して、単回帰式近似、又は、多項式近似、又は、対数近似、又は、指数近似などをして求めた近似式により kp に対応する正解率を求めるようにしてもよい(例えば、「Excel で学ぶ時系列分析と予測」(オーム社)2章の“単回帰分析”3章の“重回帰分析”参照)。また、上記回帰分析的な近似以外の補正処理を行ってもよい。なお、データの補間、補正は、kl等の他のデータについても同様である。
【0304】
§4:機械学習を用いる場合の説明
a)機械学習法の詳細な説明
図32は機械学習法の説明図である。図32において、機械学習法には、教師データ記憶手段21、解-素性対抽出手段22、機械学習手段23、学習結果記憶手段24、表現対抽出手段25、素性抽出手段26、解推定手段27、出力手段28を備える。
【0305】
ここで、機械学習手段23による機械学習の手法について説明する。機械学習の手法は、問題-解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の参考文献(1)~参考文献(3)参照)。
【0306】
参考文献(1):村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講演.2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
参考文献(2):サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
参考文献(3):SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」---解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
【0307】
すなわち、機械学習の手法は、素性の集合-解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。
【0308】
機械学習手段23は、機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
【0309】
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。
【0310】
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。
【0311】
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の式(11)で与えられる。
【0312】
【数7】
JP0004925293B2_000008t.gif

【0313】
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi |a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fi を持つ確率を意味する。P(fi |a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式(12)の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の式(13)を用いてスームージングを行ったものを用いる。
【0314】
【数8】
JP0004925293B2_000009t.gif

【0315】
ただし、freq(fi ,a)は、素性fi を持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
【0316】
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
【0317】
決定リスト方法では、あらかじめ設定しておいた素性fj ( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の式によって与えられる。
【0318】
p(a|b)=p(a|fmax ) (14)
ただし、fmax は以下の式によって与えられる。
【0319】
【数9】
JP0004925293B2_000010t.gif

【0320】
また、P(ai |fj )(ここでPはpの上部にチルダ)は、素性fj を文脈に持つ場合の分類ai の出現の割合である。
【0321】
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、以下所定の条件式(式(16))を満足しながらエントロピーを意味する式(17)を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。
【0322】
【数10】
JP0004925293B2_000011t.gif

【0323】
ただし、A、Bは分類と文脈の集合を意味し、gj (a,b)は文脈bに素性fj があって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai |fj )(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。
【0324】
式(16)は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化( 確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の参考文献(4)および参考文献(5)に記載されている。
【0325】
参考文献(4):Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997
参考文献(5):Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998) )
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
【0326】
図33はサポートベクトルマシン法のマージン最大化の概念図である。図33において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図33(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図33(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。
【0327】
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図33(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。
【0328】
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。
【0329】
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
【0330】
【数11】
JP0004925293B2_000012t.gif

【0331】
ただし、xは識別したい事例の文脈(素性の集合) を、xi とyj (i=1,…,l,yj ∈{1,-1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
-1(otherwise )
であり、また、各αi は式(20)と式(21)の制約のもと式(19)を最大にする場合のものである。
【0332】
【数12】
JP0004925293B2_000013t.gif

【0333】
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。
【0334】
K(x,y)=(x・y+1)d (22)
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi >0となるxi は、サポートベクトルと呼ばれ、通常、式(18)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
【0335】
なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献(6)および参考文献(7)に記載されている。
【0336】
参考文献(6):Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
参考文献(7):Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
【0337】
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n-1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n-1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。
【0338】
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、a と推定する。
【0339】
解推定手段27が推定する、各表現対についての、どのような解(分類先)になりやすいかの度合いの求め方は、機械学習手段23が機械学習の手法として用いる様々な方法によって異なる。
【0340】
例えば、本発明の実施の形態において、機械学習手段23が、機械学習の手法としてk近傍法を用いる場合、機械学習手段23は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として学習結果記憶手段24に記憶しておく。
【0341】
そして、解推定手段27は、表現対抽出手段25によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段24において定義された類似度と事例を参照して、表現対抽出手段25によって抽出された表現対の候補について、その候補の類似度が高い順にk個の事例を学習結果記憶手段24の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、表現対の候補の分類先(解)として推定する。すなわち、解推定手段27では、各表現対についての、どのような解(分類先)になりやすいかの度合いを、選択したk個の事例での多数決の票数、ここでは「抽出するべき」という分類が獲得した票数とする。
【0342】
また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習手段23は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として学習結果記憶手段24に記憶する。そして、解推定手段27は、表現対抽出手段25によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段24の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて素性抽出手段26で取得した表現対の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その表現対の候補の素性の分類(解)と推定する。すなわち、解推定手段27では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
【0343】
また、機械学習手法として決定リスト法を用いる場合には、機械学習手段23は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを学習結果記憶手段24に記憶する。そして、表現対抽出手段15によって新しい表現対(の候補)が抽出されたときに、解推定手段27は、学習結果記憶手段24のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。すなわち、解推定手段27では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「抽出するべき」という分類になる確率のリストにおける優先順位とする。
【0344】
また、機械学習手法として最大エントロピー法を使用する場合には、機械学習手段23は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて学習結果記憶手段24に記憶する。そして、表現対抽出手段25によって新しい表現対(の候補)が抽出されたときに、解推定手段27は、学習結果記憶手段24の確率分布を利用して、抽出された表現対の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、解推定手段27では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
【0345】
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習手段23は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶手段24に記憶する。そして表現対抽出手段25によって新しい表現対(の候補)が抽出されたときに、解推定手段27は、学習結果記憶手段24の超平面を利用して、抽出された表現対の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、解推定手段27では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例(抽出するべき表現対)の空間への距離の大きさとする。より詳しくは、抽出するべき表現対を正例、抽出するべきではない表現対を負例とする場合に、分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され、その事例の分離平面からの距離をその事例の度合いとする。
【0346】
b)機械学習を用いる場合の説明(文書分類装置を使用する場合)
確信度付与装置で機械学習の方法の場合は、予め問題と解答の組を大量に集める。問題は、F-termをふるべき特許、解答は、その特許のF-termとする。これを評価データと呼ぶ。
【0347】
ここで前記文書分類装置を用いて上記評価データでF-termを出力する。そして、各F-termがぎりぎり出力されるkpを求める。この求め方は、以下のようにする。
【0348】
あるF-termのスコア(Score )を最初のF-term(最もScore の大きいF-term)のスコアで割った値がそのF-termがぎりぎり出力されるkpとなる。また、そのF-termの順位kjも求める。また、そのF-termのスコア= kl も求める。スコアは前記式(1)等で求める。
【0349】
各F-termごとにそれが正解しているかどうかを調べる。正解していれば、kp、kj、klのときに正解とし、正解していなければkp、kj、klのときに不正解という事例になる。
【0350】
出力した各F-termについて上記事例を作成する。次に、機械学習(機械学習手段23)を利用する。kp、kj、klのときに正解、kp、kj、klのときに不正解、といった事例を学習データ(解-素性対抽出手段22)として、機械学習を行う。ここで、kp、kj、klがそれぞれ素性となる。正解、不正解は求める分類先となる。
【0351】
機械学習により、どういうkp、kj、klなら、正解に、どういうkp、kj、klなら、不正解になりやすいかを学習し、それを学習結果(学習結果記憶手段24)に蓄える。
【0352】
ここで、新しい特許(F-termが付与されていない)が入ってくる。前記文書分類装置を用いて、F-termを出力する。そして、各F-termがぎりぎり出力されるkpを求める。この求め方は、以下の通りである。
【0353】
あるF-termのスコアを最初のF-term(最もスコアの大きいF-term)のスコアで割った値がそのF-termがぎりぎり出力されるkpとなる。また、そのF-termの順位kjも求める。また、そのF-termのスコア=klも求める。スコアは前記式(1)等で求める。
【0354】
先の学習結果により、このときのkp、kj、klの場合に正解になりやすい確信度を求める(解推定手段27)。ここでは、確信度も出力できる機械学習(機械学習手段)を用いる。
【0355】
この確信度を各F-termに対応する正解率としてくっつけて表示する。(この正解率は、個々のF-termの正解率であることに注意。そのF-termまでのF-term群に対する精度(適合率)、再現率、F値などとは異なるものである)。
【0356】
ここで、機械学習の素性をkp、kj、klとしたが、これの一部のみを素性としてもよいし、逆に他のものもこの素性に加えても良いし、これらの一部と他のものの組み合わせを素性としてもよい。
【0357】
例えば、特許文書群に含まれる単語や文字列を利用して、その単語が該当特許に含まれるかいなかという素性や、その文字列が該当特許に含まれるかいなかという素性を利用してもよい。
【0358】
c)機械学習を用いる場合の説明(情報検索システムを使用する場合)
確信度付与装置で機械学習の方法の場合は、予め問題と解答の組を大量に集める。問題は、情報検索の質問、解答はその質問に対応する記事群である。これを評価データと呼ぶ。
【0359】
ここで前記情報検索システムを用いて上記評価データで記事を出力する。そして、各記事がぎりぎり出力されるkpを求める。この求め方は、以下のようにする。
【0360】
ある記事のスコア(Score )を最初の記事(最もScore の大きい記事)のスコアで割った値がその記事がぎりぎり出力されるkpとなる。また、その記事の順位kjも求める。また、その記事のスコア= kl も求める。スコアは前記式(1)等で求める。
【0361】
各記事ごとにそれが正解しているかどうかを調べる。正解していれば、kp、kj、klのときに正解とし、正解していなければkp、kj、klのときに不正解という事例になる。
【0362】
出力した各記事について上記事例を作成する。次に、機械学習(機械学習手段23)を利用する。kp、kj、klのときに正解、kp、kj、klのときに不正解、といった事例を学習データ(解-素性対抽出手段22)として、機械学習を行う。ここで、kp、kj、klがそれぞれ素性となる。正解、不正解は求める分類先となる。
【0363】
機械学習により、どういうkp、kj、klなら、正解に、どういうkp、kj、klなら、不正解になりやすいかを学習し、それを学習結果(学習結果記憶手段24)に蓄える。
【0364】
ここで、新しい情報検索に質問が入ってくる。前記情報検索システムを用いて、記事を出力する。そして、各記事がぎりぎり出力されるkpを求める。この求め方は、以下の通りである。
【0365】
ある記事のスコアを最初の記事(最もスコアの大きい記事)のスコアで割った値がその記事がぎりぎり出力されるkpとなる。また、その記事の順位kjも求める。また、その記事のスコア=klも求める。スコアは前記式(1)等で求める。
【0366】
先の学習結果により、このときのkp、kj、klの場合に正解になりやすい確信度を求める(解推定手段27)。ここでは、確信度も出力できる機械学習(機械学習手段)を用いる。
【0367】
この確信度を各記事に対応する正解率としてくっつけて表示する。(この正解率は、個々の記事の正解率であることに注意。その記事までの記事群に対する精度(適合率)、再現率、F値などとは異なるものである)。
【0368】
ここで、機械学習の素性をkp、kj、klとしたが、これの一部のみを素性としてもよいし、逆に他のものもこの素性に加えても良いし、これらの一部と他のものの組み合わせを素性としてもよい。
【0369】
以上、分類を付与する場合と情報検索の場合に機械学習により確信度(正解率)を出力する説明をしたが、この機械学習法としては、ニューラルネットワークや重回帰分析を用いてもよい。重回帰分析の説明は、「Excel で学ぶ時系列分析と予測」(オーム社)3章の“重回帰分析”で求めてもよい。重回帰分析の場合は、「正解」を値1「不正解」を値0として求めればよい。
【0370】
すなわち、求める分類が2種類ならば、重回帰分析が利用できる。重回帰分析の場合は、素性の数だけ説明変数x を用意し、素性のありなしを、その説明変数x の値を1、0で表現する。目的変数(被説明変数)は、ある分類の場合を値1、他の分類の場合を値0として求めればよい。
【0371】
(重回帰分析の利用の説明)
重回帰分析では、x1, x2, x3,,, yの組のデータがあるときに、x1, x2, x3,,, から yを求める。
【0372】
y = a0 + a1 * x1 + a2 * x2 + a3 * x3 + ...
の式の係数 a0, a1, ...を、データから適切にもとめることができる。
【0373】
(1) kp - yの組からの予測
y は確信度
x1 = kp として、
y = a0 + a1 * kpとして、
回帰分析により kp - y の組のデータから a0, a1 を求める。kpから yを求める式が求まる。
【0374】
(2) kp - yの組からの予測 (2 次の利用)
y は確信度
x1 = kp 、 x2 = kp^2 として、
y = a0 + a1 * kp + a2 * kp^2 として、
重回帰分析により kp - y の組のデータから a0, a1, a2 を求める。kpから yを求める式が求まる。
【0375】
(3) kp、kj - yの組からの予測
y は確信度
x1 = kp 、x2 = kj として、
y = a0 + a1 * kp + a2 * kjとして、
重回帰分析により kp 、 kj - y の組のデータから a0, a1, a2 を求める。kp, kjから yを求める式が求まる。
【0376】
(4) kp 、 kj - y の組からの予測 (2 次の利用)
y は確信度
x1 = kp, x2 = kjとして、
y = a0 + a1 * kp + a2 * kj + a3 * kp^2 + a4 * kp * kj + a5 * kj^2 として、
重回帰分析により kp 、 kj - y の組のデータから a0, a1, a2,,, a5 を求める。kp 、 kj から yを求める式が求まる。
【0377】
これらの処理は,重回帰分析を機械学習手法として用いている方法ともとらえられるし、また、重回帰分析を補間手法として利用しているともとらえられる。
【0378】
(機械学習、重回帰分析の利用の説明)
機械学習、重回帰分析を利用するときには、kp - yの組のデータや、kp、kj - yの組のデータなどを利用する。
【0379】
このとき、同じ kp について、y の平均を求めて、各kpごとに yの値が一つだけあるデータを作って、それをkp - yの組のデータとしてもよい。この場合、 kp - y の平均の組のデータになっている。
【0380】
また、これとは別の方法として、このとき、同じ kp について、データをまとめることをせずに、元のすべてのデータ自体を使って、それをkp - yの組のデータとしてもよい。すなわち、確信度の平均をとるという操作をせずに、元の、問題の個数分だけ、kp - yの組のデータの個数があるようにしてもよい。
【0381】
(確信度についての説明)
前記の説明において使用する確信度としては、適合率の偏差値、再現率の偏差値、F値の偏差値、正解率の偏差値を用いてもよい。また、これらに類するものでもよい。数値的に求められるものなら、これら以外のものでもよい。
【0382】
なお、値が大きいものを取り出すなどについては、「値が閾値以上のものを取り出す」「値が大きいものを所定の値の個数以上のものを大きい順に取り出す」「取り出されたものの値の最大値に対して所定の割合をかけた値を求め、その求めた値以上の値を持つものを取り出す」等の表現とすることができる。また、これら閾値、所定の値を、あらかじめ定めることも、適宜ユーザが値を変更、設定できることも可能である。
【0383】
また、入力された問題を解いてその解答を複数順序化して抽出し、該抽出した解答と所定値を出力するとき、この所定値は、前に説明したkp、kj、klのように解答の順序化と同じ順(又は逆の順)となる(複数観点の所定値を用いる場合は除く)。
【0384】
§5:実験結果の説明
次に実際に実験を行なった結果の説明をする。NTCIR-5 Patent分類タスクのデータを使用した。ここで分類対象の特許文書は 1201 件あった。そして、この特許文書を次のように分割した。
【0385】
close … 600
open … 601
ここでclose のデータを使って、対応表を求めて、確信度を予測する。そして、openのデータを使って、予測した確信度の妥当性を確認する。実験結果の表を図34で示している。
【0386】
図34は実験結果の説明図であり、図34において、表の値は、真の値と、本発明により予測した値の差の絶対値(絶対誤差)を示している。図34では、4つの方法を試してある。ここの確信度(再現率、適合率、F値)は、kj個目までのFタームを出力させた場合の確信度(再現率、適合率、F値)である。すなわち、kj個目のFタームの確信度でなく、kj個目までのFタームの確信度となっている。
【0387】
(1) base0.5 --- すべて確信度を0.5 とする方法。
【0388】
(2) kp --- kp と確信度の対応表を求めて予測する方法(ここでは、kp = 0, 0.1, 0.2, ..., 1.0の値の場合の対応表を求めた) 。
【0389】
(3) kj --- kj と確信度の対応表を求めて予測する方法(ここでは、kj = 1, 2, 3, ..., 200の値の場合の対応表を求めた) 。
【0390】
(4) kp, kj --- kp,kjと確信度の対応表を求めて予測する方法(ここでは、kp = 0, 0.1, 0.2, ..., 1.0の値とkj = 1, 2, 3, ..., 200の値のすべての組み合わせの場合の対応表を求めた)。
【0391】
kjについては補間処理は必要ない。kpについては補間処理を行った。この補間処理はすでに説明した次の式でおこなった。
【0392】
〔(kp -kp3) pr2 + (kp2 - kp) pr3〕/〔(kp2 - kp) + (kp -kp3)〕
図34の表の kj は、システムの出力の何個目のFタームのときの結果を示すかをあらわしている。例えば、kj = 1だと、システムの出力の1個目のFタームのときの結果を示している。図34の表の値は、真の値と、本発明により予測した値の差の絶対値(絶対誤差)と書いたが、正確には、記事ごとに、kj個目のFタームのときの真の値(確信度)と、本発明により予測した値(確信度) の差の絶対値(絶対誤差)を求めて、それを加えて、記事の総数で割った。つまり、表の値は、絶対誤差の平均である。
【0393】
図34の表では、全般的に base0.5に比べて他の方法の誤差はかなり小さい。このため、本発明の有効性がわかる。また、kp、kj単独のものを利用したのに比べてkp、kj両方を利用したものは、すこしではあるが誤差が小さくなっている。また、kpまた kj また kp、kjのそれぞれの手法とも、kjが小さい、上位の出力において、適合率の誤差が 0.2前後と少し大きいがそれを除くと、誤差は 0.1前後であり、かなりよい予測が実現できていることがわかる。
【0394】
§6:プログラムインストールの説明
入力部(入力手段)1、文書抽出部(文書抽出手段)2、KDOC抽出部(KDOC抽出手段)2、文書類似度算出部(文書類似度算出手段)3、スコア算出部(スコア算出手段)4、スコア(スコア M1(x))算出部4、分類集合抽出部(分類集合抽出手段)5、F-term xの集合抽出部(F-term xの集合抽出手段)5、出力部(出力手段)6、文書分類装置(文書分類手段)10、対応表作成部(対応関係作成手段)11、確信度付与部(確信度付与手段12、格納部(対応表)13、教師データ記憶手段21、解-素性対抽出手段22、機械学習手段23、学習結果記憶手段24、表現対抽出手段25、素性抽出手段26、解推定手段27、出力手段28、問題解決手段、情報検索システム(装置)等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ(情報処理装置)で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。
【0395】
このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。
【図面の簡単な説明】
【0396】
【図1】本発明の文書分類装置の説明図である。
【図2】本発明の特許文書分類装置の説明図である。
【図3】本発明の特許文書の分類処理フローチャートである。
【図4】本発明の入力特許文書と選択された特許文書の間の類似度を求める処理フローチャートである。
【図5】本発明のkpとF値の対応の説明図である。
【図6】本発明のkpと再現率と精度の対応の説明図である。
【図7】本発明の確信度付与装置の説明図である。
【図8】本発明の対応表作成処理フローチャートである。
【図9】本発明の確信度付与処理フローチャートである。
【図10】本発明の対応表作成処理フローチャートである。
【図11】本発明の確信度付与処理フローチャートである。
【図12】本発明の対応表作成処理フローチャートである
【図13】本発明の確信度付与処理フローチャートである。
【図14】本発明の対応表作成処理フローチャートである
【図15】本発明の確信度付与処理フローチャートである。
【図16】本発明の対応表作成処理フローチャートである
【図17】本発明の確信度付与処理フローチャートである。
【図18】本発明の対応表作成処理フローチャートである
【図19】本発明の確信度付与処理フローチャートである。
【図20】本発明の対応表作成処理フローチャートである。
【図21】本発明の確信度付与処理フローチャートである。
【図22】本発明の対応表作成処理フローチャートである
【図23】本発明の確信度付与処理フローチャートである。
【図24】本発明の対応表作成処理フローチャートである。
【図25】本発明の確信度付与処理フローチャートである。
【図26】本発明の対応表作成処理フローチャートである。
【図27】本発明の確信度付与処理フローチャートである。
【図28】本発明の対応表作成処理フローチャートである
【図29】本発明の確信度付与処理フローチャートである。
【図30】本発明の対応表作成処理フローチャートである。
【図31】本発明の確信度付与処理フローチャートである。
【図32】本発明の機械学習法の説明図である。
【図33】本発明のサポートベクトルマシン法のマージン最大化の概念図である。
【図34】本発明の実験結果の説明図である。
【符号の説明】
【0397】
1 入力部(入力手段)
6 出力部(出力手段)
10 文書分類装置(問題解決手段)
11 対応表作成部(対応関係作成手段)
12 確信度付与部(確信度付与手段)
13 格納部(対応表)
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13
【図15】
14
【図16】
15
【図17】
16
【図18】
17
【図19】
18
【図20】
19
【図21】
20
【図22】
21
【図23】
22
【図24】
23
【図25】
24
【図26】
25
【図27】
26
【図28】
27
【図29】
28
【図30】
29
【図31】
30
【図32】
31
【図33】
32
【図34】
33