TOP > 国内特許検索 > データ処理装置及びデータ処理方法 > 明細書

明細書 :データ処理装置及びデータ処理方法

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5099498号 (P5099498)
公開番号 特開2009-116456 (P2009-116456A)
登録日 平成24年10月5日(2012.10.5)
発行日 平成24年12月19日(2012.12.19)
公開日 平成21年5月28日(2009.5.28)
発明の名称または考案の名称 データ処理装置及びデータ処理方法
国際特許分類 G06F  17/30        (2006.01)
G06F  17/21        (2006.01)
FI G06F 17/30 220Z
G06F 17/21 550A
請求項の数または発明の数 18
全頁数 39
出願番号 特願2007-286269 (P2007-286269)
出願日 平成19年11月2日(2007.11.2)
審査請求日 平成22年10月7日(2010.10.7)
特許権者または実用新案権者 【識別番号】301022471
【氏名又は名称】独立行政法人情報通信研究機構
発明者または考案者 【氏名】村田 真樹
【氏名】金丸 敏幸
個別代理人の代理人 【識別番号】100130111、【弁理士】、【氏名又は名称】新保 斉
審査官 【審査官】吉田 誠
参考文献・文献 特開平8-241328(JP,A)
特開2004-102628(JP,A)
特開2006-23968(JP,A)
賀家 智代,質問キーワードの順序依存性に基づくWebアーカイブ検索方式,日本データベース学会Letters,日本,日本データベース学会,2006年 6月22日,Vol.5 No.1,129-132ページ
小野田 透,Webアーカイブを用いた時系列パターンに基づく検索支援方式,電子情報通信学会 第18回データ工学ワークショップ論文,日本,電子情報通信学会データ工学研究専門委員会,2007年 6月 1日,1-9ページ
調査した分野 G06F 17/30
G06F 17/21
特許請求の範囲 【請求項1】
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置において、
ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、
ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出手段と、
該関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出手段と、
該検出結果を出力する出力手段と
を備えたことを特徴とするデータ処理装置。
【請求項2】
前記関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合する
請求項1に記載のデータ処理装置。
【請求項3】
前記関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出する
請求項1に記載のデータ処理装置。
【請求項4】
前記データ処理装置であって、
前記関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から前記対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出する
請求項1ないし3のいずれかに記載のデータ処理装置。
【請求項5】
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置において、
ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、
該第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出手段と、
該第1共起データ及び該第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出手段と、
該検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力手段と
を備えたことを特徴とするデータ処理装置。
【請求項6】
前記データ処理装置において、
ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出手段を備えた
請求項5に記載のデータ処理装置。
【請求項7】
前記共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合する
請求項6に記載のデータ処理装置。
【請求項8】
前記共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果であって、
前記共起データ間関係検出手段が、前記第1共起データ及び前記第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出する
請求項5又は6に記載のデータ処理装置。
【請求項9】
前記データ処理装置で処理する対象データが宛名であり、関連データが宛先である構成において、
前記第1関連データと前記第2関連データとの間で、その新旧関係を検出する
ことを特徴とする請求項1ないし8のいずれかにデータ処理装置。
【請求項10】
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、
関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、
関連データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出ステップ、
関連データ間関係検出手段が、該関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出ステップ、
出力手段が、該検出結果を出力する出力ステップ
を有することを特徴とするデータ処理方法。
【請求項11】
前記関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合する
請求項10に記載のデータ処理方法。
【請求項12】
前記関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出する
請求項10に記載のデータ処理方法。
【請求項13】
前記データ処理方法であって、
前記関連データ抽出ステップにおいて関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から前記対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出する
請求項10ないし12のいずれかに記載のデータ処理方法。
【請求項14】
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、
関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、
共起データ抽出手段が、該第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出ステップ、
共起データ間関係検出手段が、該第1共起データ及び該第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出ステップ、
出力手段が、該検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力ステップ
を有することを特徴とするデータ処理方法。
【請求項15】
前記データ処理方法において、前記共起データ抽出ステップの次に、
共起データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出ステップを有する
請求項14に記載のデータ処理方法。
【請求項16】
前記共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合する
請求項15に記載のデータ処理方法。
【請求項17】
前記共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果であって、
前記共起データ間関係検出手段が、前記第1共起データ及び前記第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出する
請求項14又は15に記載のデータ処理方法。
【請求項18】
前記データ処理方法が、対象データが宛名であり、関連データが宛先である構成において、
前記第1関連データと前記第2関連データとの間で、その新旧関係を検出する
ことを特徴とする請求項10ないし17のいずれかにデータ処理方法。
発明の詳細な説明 【技術分野】
【0001】
本発明は、所定の対象データに関連する関連データ間の順序を検出するデータ処理装置と方法に関し、より詳しくは所定のルールや機械学習に基づいて生成される規則に従って、順序を検出する技術に関わる。
【背景技術】
【0002】
企業や個人の連絡先を調べる際に、インターネットで検索したり、ローカルなハードディスクに蓄積されたデータベースを検索することは日常的に行われている。このようなデータは、一度蓄積されるとなかなか消去されることがなく、企業が移転をしても従前の住所が検索結果として出力されることが少なくない。
【0003】
このような住所に関する情報の他、企業名の変更や、企業の人事情報や、個人の勤務先情報、製品の型番情報など、ある対象データに関連する関連データが更新された場合に、どちらが新しい関連データなのかを解決すべき場面は多い。
【0004】
ところで、非特許文献1および2に示されるように、ウェブページなど文書データから企業の所在地住所を取り出す研究や、単一の文書から企業内の人事の情報を取り出す研究は従来から知られている。しかし、企業名、人名を入力として企業の住所の変化情報、人の所属の変化情報を、文書の日付を自動推定する技術や教師あり機械学習手法を含めた高度な自然言語処理技術を駆使してウェブの複数の文書を総合的に扱って取り出す先行技術はない。
【0005】

【非特許文献1】佐藤理史、ワールドワイドウェブを利用した住所探索、情報処理学会論文誌, Vol.42, No.1, pp.59-67, 2001年
【非特許文献2】関根聡,テキストからの情報抽出—文書から特定の情報を抜き出す—,情報処理,Vol.40,No.4,pp.370-373,1999年
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、対象データに関連する2つの関連データの前後を精度良く検出する技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は次のようなデータ処理装置を提供することもできる。
すなわち、請求項1に記載の発明は、所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置であって、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出手段と、関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出手段と、検出結果を出力する出力手段とを備えたことを特徴とする。
【0008】
請求項2に記載の発明によれば上記の関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、関連データ間関係検出手段が、関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合することを特徴とする。
【0009】
請求項3に記載の発明によれば、上記の関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果であって、関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出することを特徴とする。
【0010】
請求項4に記載の発明によれば、上記請求項1ないし3のいずれかのデータ処理装置であって、関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から前記対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出することを特徴とする。
【0011】
請求項5に記載の発明によれば、所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置において、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出手段と、第1共起データ及び第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出手段と、検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力手段とを備えたことを特徴とするデータ処理装置を提供する。
【0012】
請求項6に記載の発明によれば、ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出手段を備えた処理装置を提供してもよい。
【0013】
請求項7に記載の発明によれば、上記の共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合することを特徴とする。
【0014】
請求項8に記載の発明によれば、上記の共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果であって、共起データ間関係検出手段が、前記第1共起データ及び前記第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出することを特徴とする。
【0015】
請求項9に記載の発明によれば、データ処理装置で処理する対象データが宛名であり、関連データが宛先である構成において、第1関連データと前記第2関連データとの間で、その新旧関係を検出することを特徴とする。
【0016】
本発明は、次のようなデータ処理方法を提供することもできる。
請求項10に記載の発明は、所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、関連データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出ステップ、関連データ間関係検出手段が、該関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出ステップ、出力手段が、該検出結果を出力する出力ステップを有することを特徴とする。
【0017】
本発明が決定する順序は、関連データ間の新旧、前後、評価、重要度などいかなる順序でもよいが、数値の大小など自然法則によって一義的に定まるものは関係規則による必要はないから、本発明の対象としない。すなわち、本発明が対象とするのは、住所変更による住所の新旧、人手によって並べられたデータの前後、アンケート結果から得られた評価、作成者によってばらばらに決定された重要度など、順序が何らかの作為あるいは精神作用によって決定づけられたものである。
【0018】
請求項11に記載の発明は、上記の関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、上記関連データ間関係検出手段が、前記関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合することを特徴とする。
【0019】
請求項12に記載の発明は、上記の関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果とする構成である。該機械学習には、サポートベクトルマシンや最大エントロピー法の教師有り機械学習処理を行う公知の機械学習モジュールを用いる。
そして、関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出することを特徴とする。
【0020】
請求項13に記載の発明は、上記の関連データ抽出ステップにおいて関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出することを特徴とする。
【0021】
請求項14に記載の発明は、所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、共起データ抽出手段が、該第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出ステップ、共起データ間関係検出手段が、該第1共起データ及び該第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出ステップ、出力手段が、該検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力ステップを有することを特徴とする。
【0022】
請求項15に記載の発明は、上記のデータ処理方法において、前記共起データ抽出ステップの次に、共起データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出ステップを有することを特徴とする。
【0023】
請求項16に記載の発明は、上記のデータ処理方法において、共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合することを特徴とする。
【0024】
請求項17に記載の発明は、上記の共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果とする構成である。該機械学習には、サポートベクトルマシンや最大エントロピー法の教師有り機械学習処理を行う公知の機械学習モジュールを用い、関連データ間関係検出ステップの前に実行処理することができる。
そして、共起データ間関係検出手段が、第1共起データ及び第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出することを特徴とする。
【0025】
請求項18に記載の発明は、上記のデータ処理方法が、対象データが宛名であり、関連データが宛先である構成において、第1関連データと第2関連データとの間で、その新旧関係を検出することを特徴とする。
【発明の効果】
【0026】
本発明は、上記構成を備えることにより次のような効果を奏する。
すなわち、請求項1又は10に記載の発明によれば、対象データと関連のある2つの関連データ間の順序を関連データ間関係規則に基づいて高精度に決定することができ、従来は人手によって前後の文脈から判断していた処理を自動化することができる。
【0027】
本発明が対象とする順序は、上記の通り人間の作為や精神作用によって決定づけられたものであるため、本来はコンピュータの処理になじみにくい。
これに対して本発明はまず対象データに関連する2つの関連データを抽出し、さらにそれらが共起する関連データ共起ファイルを抽出する。この方法によれば大量のデータを対象として順序の検出に最適な関連データを抽出し、それと関係規則から高精度に順序を検出することができる。
【0028】
請求項2又は11に記載の発明は、関連データ間関係規則として、2つの関連データとの間の文字列が含まれること、あるいは含まれないことを用いるので、コンピュータの文字列比較により簡便に順序を検出することができる。
【0029】
請求項3又は12に記載の発明によれば、機械学習を用いて教師データから関連データ間の順序を学習すると共に、その結果を関連データ間関係規則として用いるのでさらに高精度な検出に寄与する。
【0030】
請求項4又は13に記載の発明によれば、上記において対象データだけを抽出するのではなく、対象データと共起するデータを抽出することで、関連データと対象データとの関連性がより確実になり、また、共起するデータに限定することで処理すべき対象データ数が抑制される。これにより順序検出の高精度化、処理の高速化を図ることができる。
【0031】
請求項5又は14に記載の発明によれば、各関連データから直接順序を検出するのではなく、それらと共起する共起データにより順序を検出することができる。これによって関連データの性質上、順序を決定しにくい場合にも、その共起データを比較することで高精度に検出することができる。
【0032】
請求項6又は15に記載の発明によれば、各関連データと共起する共起データが共に出現するファイルを用いることで、共起データ間の関係を正確に把握することができる。
【0033】
請求項7又は16に記載の発明によれば、共起データ間関係規則として、2つの共起データとの間の文字列が含まれること、あるいは含まれないことを用いるので、コンピュータの文字列比較により簡便に順序を検出することができる。
【0034】
請求項8又は17に記載の発明によれば、機械学習を用いて教師データから共起データ間の順序を学習すると共に、その結果を共起データ間関係規則として用いるのでさらに高精度な検出に寄与する。
【0035】
請求項9又は18に記載の発明によれば、対象データとして宛名、関連データとして宛先を用い、変更されることが多く、しかも関連データを較べただけではどちらが新しいかの判定が難しい住所データに対して本発明を適用することができる。
【発明を実施するための最良の形態】
【0036】
以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。
(実施例1)
図1は本発明に係るデータ処理装置(以下、本装置と呼ぶ)の構成図である。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理や機械学習、テキスト処理などを司るCPU(10)によって本発明の各ステップを実行処理する。CPU(10)は周知のようにメモリ(図示しない)と協働して動作し、キーボードやマウス(11)などの入力手段の他、出力結果を表示するモニタ(12)、ハードディスク等の外部記憶装置(13)などを備えている。
また、テキストデータ、ファイル等の取得などのためにデータの取得入力手段としてインターネット等のネットワークと接続するネットワークアダプタ(14)を備える。
【0037】
そして、CPU(10)には入力部(101)、関連データ抽出部(102)、関連データ共起ファイル抽出部(103)、関連データ間関係検出部(104)、出力部(105)が設けられている。
そして、公知のプログラミング言語によって記載されたプログラムがCPU(10)及びそれと連動するハードウェアを動作させて、以下に説述する各部(101)~(105)の機能が実現される。
【0038】
以下、図2に示す処理フローチャートを用いて、請求項1ないし4等に係る本発明の各処理を詳細に説述する。
まず、入力部(101)が外部記憶装置(3)あるいはインターネット、LAN(Local Area Network)等のサーバ上からネットワークアダプタ(40)を介して第1コンテンツファイル(20)及び第2コンテンツファイル(21)を取得し、CPU(10)内に取り込む処理を行う。
各コンテンツファイル(20)(21)は同一の記憶装置やサーバ上にあってもよいし、それぞれ別に格納されているものでもよい。
【0039】
コンテンツファイル(20)(21)の例としては、住所録などの複数の項目に対してそれぞれデータ(氏名・会社名・住所・電話番号)を割り当ててあるデータベースや、HTML(HyperTextMarkup Language)で記載されたウェブページのソーステキスト、特許公報のウェブページのように、ウェブページであっても項目と内容が正確に対応づけられたデータを含むテキストなどを用いることができる。
分かりやすくするために、以下では対象データを「会社名」、関連データを「住所」として説明を続ける。このように本発明の請求項9等に記載の通り、対象データを宛名、関連データを宛先としたときに、その前後関係として例えば宛先の新旧関係を検出するのに用いることができる。
【0040】
なお、宛名とは手紙や証書等に書く相手方の氏名、会社名等であり、宛先とは宛名の場所である。例えば、「△△株式会社」が宛名であり、その住所である「東京都中央区駅前1-2-3」が宛先である。
【0041】
関連データ抽出部(102)では、予め定義してある対象データ(22)と関連する関連データを異なるファイルである各コンテンツファイル(20)(21)から抽出する。(関連データ抽出ステップ:S10)
説明上第1関連データ(24)、第2関連データ(25)と呼ぶが、これらの順序は未知であり、本発明により対象データ(22)に関連した2つの関連データ間の順序を検出するものである。
【0042】
例えば、会社が移転した場合を想定して、「旧住所」(序列が前)、「新住所」(序列が後)を考える。この場合、第1コンテンツファイルは、旧住所が記載されたウェブページ、第2コンテンツファイルは、新住所が記載されたウェブページがあり、それらから旧住所と新住所が第1関連データ、第2関連データとして抽出されることになる。詳しくは後述するが、ここでは対象データ(22)自体が各コンテンツファイル(20)(21)に出現していることは必要なく、そのページ自体に会社名が記載されていなくても予め人手により関連があることは選定され、その上でコンテンツファイルが入力される場合にも本発明は適用される。
【0043】
各コンテンツファイル(20)(21)に含まれるデータが1つであって、予め対象データ(22)に関連することが確実な各関連データ(24)(25)を抽出する構成が最もシンプルな構成であるが、通常はコンテンツファイル(20)(21)には複数のデータが含まれる。例えば、旧住所と共に、電話番号や担当者名、製品情報など順序の検出と関係のないデータが含まれている。
本発明では、大量の関連データを比較して順序を決定しても良いので、この段階で真に関連データとして必要であるかを選定する必要はない。
【0044】
もっとも、処理の高速化、必要な結果のみを得るために、予め選別して抽出を行っても良い。例えば、住所だけを抽出したいのであれば、CPU(10)により公知のテキスト処理を行い、都道府県名や都市名に続き、数字等で終わるテキストなどを抽出すれば住所だけを簡単に抽出することもできる。
さらに、「本社」に続く文字列だけを抽出することで、複数の住所が記載されているページから、内容の等価性が予想される1つの関連データを特定して抽出してもよい。
【0045】
抽出された第1関連データ(24)及び第2関連データ(25)を用い、関連データ共起ファイル抽出部(103)において、コンテンツデータ(23)からそれらが共起する関連データ共起ファイル(231)を抽出する。(関連データ共起ファイル抽出ステップ:S11)
【0046】
コンテンツデータ(23)は、外部記憶装置(13)に格納されていても、インターネット等のサーバ上に格納されていてもいずれでも良いが、データ量が多いほど共起するデータが確実に抽出できることから、後者の方が好ましい。
共起するファイルが複数ある場合には、全てを抽出して次の処理に進んでもよいし、ファイルの作成日時が最新のもの1つ、あるいは2つの関連データの占める割合が高いものとして全体のデータ容量が最も小さいもの1つを選んでもよい。
【0047】
関連データ共起ファイル抽出部(103)は、予めどこを検索するかを定めておく場合に限らず、まず公知の検索エンジンのサイトに、各関連データを送信し、それらが共起するウェブページを検索した上で、そのウェブページを関連データ共起ファイル(231)として抽出してもよい。
【0048】
次いで、関連データ間関係検出部(104)において、外部記憶装置に格納された関連データ間関係規則(130)を参照し、関連データ間の順序を検出する。(関連データ間関係検出ステップ:S12)
本発明では請求項2等に記載の発明のようにルールベースによる方法と、請求項3等に記載の発明のように機械学習による方法の2つを提案する。
【0049】
まずルールベースによる方法から説明する。
ルールベースの場合、予め人手によって規則を定めておき、それに従って判定を行うが、本発明のように自動的にコンテンツデータ(23)を参照して関連データ間の順序を決定することは、コンテンツデータ(23)が膨大であると事実上不可能である。本発明はこのような場合にも高精度に順序を検出することができる。
【0050】
本発明請求項に係る関連データ共起ファイル(231)の例を図3ないし図5に示す。なおこの関連データ共起ファイル(231)は後述の各実施例においても共通に用いることのできる例である。
図3(A)は抽出されたウェブページの1例(231a)を示しており、様々なテキストの中で「△△は、下記に移転します。」(22a)との表示の後に、「新住所:××××××」(25a)、「現住所:●●●●●」(24a)の順番に記載されている。
図3(B)は、別の表示例(231b)であり、「△△社屋移転のお知らせ」(22b)との表示の後に、「旧住所:●●●●●」(24b)、「新住所:××××××」(25b)の順番に記載されている。
【0051】
明らかなように、本発明の対象データは△△であり、第1関連データは旧住所の●●●●●、第2関連データは新住所の××××××である。
実際には住所変更の場合には多くの表記方法があるが、それらも含めて次のような関連データ間関係規則(130)を用意する。本実施例の関連データ間関係規則(130)は請求項2や7などのルールベースによる方法で共通に用いることの出来る関連データ間関係規則の一例である。
【0052】
【表1】
JP0005099498B2_000002t.gif

【0053】
関連データ間関係検出部(104)では、図3(A)の場合には第2関連データ(25a)が前出、第1関連データ(24a)が後出であり、その間に含まれる文字列から関連データ間関係規則(130)に含まれる文字列「現住所」が発見できることから、番号1の規則を適用して、第2関連データ××××××(25a)が後、第1関連データ●●●●●(24a)が前と検出する。
【0054】
また図3(B)の場合には第1関連データ(24b)が前出、第2関連データ(25b)が後出であり、その間に含まれる文字列から関連データ間関係規則(130)に含まれる文字列「新住所」が発見できることから、番号6の規則を適用して、第1関連データ●●●●●(24b)が前、第2関連データ××××××(25b)が後、と検出する。
なお、上記関連データ間関係規則(130)では含まれる文字列のみを定義したが、逆に含まれない文字列を定義してもよい。
【0055】
次に図4ではウェブページにおける表を利用して、項目名として「旧住所」「新住所」が記載されて、その下欄に第1関連データ(24c)と第2関連データ(25c)が記載されている。
このような場合に、HTMLにおけるタグを利用して関連データ間関係規則(130)とすることもできる。例えば、関連データ間に表の枠線のタグが介在する場合には、その左側の関連データを前、右側の関連データを後とすることができる。そのほか、「旧住所」の文字列の下欄又は左欄にある関連データを前、「新住所」の文字列の下欄又は左欄にある関連データを後と定義してもよい。
【0056】
その他、図5のように第1関連データ(24d)と第2関連データ(25d)の文字の大きさが異なる場合に、関連データ間関係規則(130)に、文字サイズが小さなものを前、大きなものを後とする規則を備えておいて、文字サイズを指定するタグから順序を検出してもよい。
【0057】
本発明では関連データ共起ファイル(231)は複数抽出してもよいから、以上のような関連データ間関係規則(130)に複数の条件が合致する場合がある。このような場合には単純には多数決により「前」と判定された数が多い関連データが前、「後」と判定された数が多い関連データを後とすればよい。
また、関連データ間関係規則(130)に表2のように重みを定義しておき、例えば番号2と4と5が抽出された場合には、前出関連データが前である確度は0.4、後である確度は0.8+0.4=1.2(後出関連データについてはこの逆)として、確度の高い後、と判定するようにしてもよい。
【0058】
【表2】
JP0005099498B2_000003t.gif

【0059】
本発明は、このように関連データ間関係規則(130)を使うとしても単にルールに従って判定するだけでなく、多量のデータに基づいて、どちらがより前らしいか、後らしいかを含めて検出することができる点に特徴を有する。
【0060】
検出結果は出力部(105)から出力される。(出力ステップ:S13)
本発明における出力としては、モニタ(12)からの表示や、外部記憶装置(13)への記録、ネットワークアダプタ(14)を介して外部サーバに出力などいずれでもよい。本発明のデータ処理装置(1)を、データ検索装置に装備し、検索結果の表示順を本装置(1)の検出した順序に合わせて変更するように利用してもよい。
【0061】
図2において、本実施例では異なる2つのコンテンツファイル(20)(21)を入力したが、同一のコンテンツファイルを関連データ抽出部(102)に入力して、2つの関連データを抽出してもよい。この場合、そもそもコンテンツファイルにおいて関連データが共起していることから、これも他のコンテンツデータ(23)と共に、関連データ間関係検出部(204)で用いてもよい。
【0062】
また、請求項4等に記載の発明の実施態様として、関連データ抽出部(102)では対象データと共起する関連データを抽出する構成でもよい。上記したとおり、第1コンテンツファイル(20)等が予め対象データと関連があることが分かっている場合には必要ないが、コンテンツファイルをインターネット等から抽出する場合には、対象データ(22)が出現するファイルを抽出し、これらをコンテンツファイルとする必要がある。
【0063】
この場合、単に対象データ(22)が出現するコンテンツファイル内の全ての文字列を関連データ(24)(25)としてもよいが、より好ましくは、対象データ(22)が出現する前後所定の文字数内の文字列を関連データ(24)(25)としてもよい。これにより、一般的に関連が高いと思われる近傍の文字列を関連データとすることができる。
【0064】
本発明における関連データや共起データの抽出には次のような高度な手法を適用することもできる。
共起データを例に挙げると、関連データを構成する単語群A(単語群は単数又は複数の単語を言う。)を、多く含む共起データの抽出方法を説明する。
【0065】
(1) 基本的な方法 (TF・IDF 法) の説明
(数1)
score(D) = Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
Wは関連データの集合、tf(w,D)はコンテンツデータ中におけるwの出現回数、df(w)は全文書でWが出現した文書の数、Nは文書の総数
数1に示す式において、score(D) が高い文書データを共起データとして出力する。このようにすることで、関連データとして一般的な語句を多数抽出してしまった場合、意味のない共起データが多数抽出されることを防ぐことができる。
同様に関連データを抽出する際にも有意な関連データを抽出するのに寄与させることができる。
【0066】
(2)Robertson らの Okapi weightingの説明
本方法は、非特許文献3に記載されている。
【0067】
<nplcit num="3"> <text>村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均“位置情報と分野情報を用いた情報検索”自然言語処理(言語処理学会誌) 2000年 4月,7 巻,2 号, p.141 ~ p.160 該非特許文献13における数2が性能がよいことが知られている。 そして、Σで積を取る前の tf 項とidf 項の積が Okapiのウェイティング法になって、この値を単語の重みに使う。</text></nplcit>
【0068】
Okapi の式なら
(数2)
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)))
w ∈W で加算

lengthはデータDの長さ、delta はデータの長さの平均、データの長さは、データのバイト数、また、データに含まれる単語数などを使う。
【0069】
さらに、以下の情報検索を行うこともできる。
(Okapi の参考文献)
非特許文献4,5に開示されるようなOkapiの式、SMARTの式を用いることもできる。より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらの OkapiのSMARTの式を用いてもよい。
【0070】
<nplcit num="4"> <text>S. E. Robertson, S. Walker, S. Jones, M. M.Hancock-Beaulieu, and M. GatfordOkapi at TREC-3, TREC-3, 1994年</text></nplcit><nplcit num="5"> <text>Amit Singhal AT&T at TREC-6, TREC-6,1997 年</text></nplcit>
【0071】
これらの方法では、tf・idf だけでなく、コンテンツデータの長さなども利用して、より高精度な情報検索を行うことができる。
【0072】
今回の、単語群Aをより多く含む共起データの抽出方法では、さらに、Rocchio's formula (非特許文献6)を使うことができる。
【0073】
<nplcit num="6"> <text>J. J. Rocchio,Relevance feedback ininformation retrieval,The SMART retrieval System, Edited by G. Salton,PrenticeHall, Inc.,page 313-323, 1971年</text></nplcit>
【0074】
この方法は、log(N/df(w))のかわりに、
(数3)
{E(t)+ k_af * (RatioC(t) - RatioD(t))} *log(N/df(w))
を使う。
【0075】
E(t) = 1 (対象データ)
= 0 (それ以外)
RatioC(t) は関連データ群Bでのt の出現率
RatioD(t) はコンテンツデータ群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど単語群Aをより多く含む共起データとして取り出すものである。
【0076】
score(D)のΣの加算の際に足す単語wの集合Wは、元の対象データと、単語群Aの両方とする。ただし、元の対象データと、単語群Aは重ならないようにする。
【0077】
また、他の方法として、score(D)のΣの加算の際に足す。単語wの集合Wは、単語群Aのみとする。ただし、元の対象データと、単語群Aは重ならないようにする。
【0078】
ここでは roccio の式で複雑な方法をとったが、単純に、単語群Aの単語の出現回数の和が大きいものほど、単語群Aをより多く含む共起データとして取り出すようにしてもよいし、また、単語群Aの出現の異なりの大きいものほど、単語群Aをより多く含む共起データとして取り出すようにしてもよい。
以上の方法により、単語群Aを含む共起データを取り出すことができる。
【0079】
(実施例2)
ルールベースを用いた実施例1に続いて、機械学習を用いた手法を実施例2として説明する。以下の実施例は本発明の請求項3等の技術に関する。
本実施例における関連データ間関係検出部(104)のさらに詳細な構成を図6に示す。ここでは教師データ入力部(1041)、解-素性対抽出部(1042)、機械学習処理部(1043)、関係判定部(1044)がそれぞれ設けられる。
【0080】
機械学習の手法は公知の機械学習モジュールにおける学習過程と、それを用いた解の推定過程とが一体的に成り立つものである。本発明の実施において、学習過程は必ずしも必須ではなく外部記憶装置(13)には機械学習の結果形成された関連データ間関係規則(130)を備えておくだけでもよい。その場合には、関連データ間関係検出部(104)に必要なのは各機械学習手法に従って順序を判定する関係判定部(1044)だけである。
【0081】
機械学習の手法は、様々なものが公知であるが、ここでは各手法を簡単に説明する。問題-解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の非特許文献7~非特許文献9参照)。
【0082】
<nplcit num="7"> <text>村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講 演.2004.http://www2.nict.go.jp/x/x161/member/murata/ps/kougi-ml-siryou-new2.pdf</text></nplcit><nplcit num="8"> <text>サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.</text></nplcit><nplcit num="9"> <text>SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.</text></nplcit>
【0083】
どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)が必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、
問題:「彼が話す。」---解「現在」
が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す。」「。」となる。
【0084】
すなわち、機械学習の手法は、素性の集合-解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。
【0085】
図6に示すようにCPU(10)において、関係判定部(1044)で処理する前段として、解-素性対抽出部(1042)と、機械学習処理部(1043)を備える。ここで機械学習処理は、図7のように分散したテキストデータをどのように分類するのか、その分類結果(解)を得る。
機械学習処理部(1043)における機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
【0086】
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。
【0087】
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。
【0088】
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の数4で与えられる。
【0089】
【数4】
JP0005099498B2_000004t.gif

【0090】
【数5】
JP0005099498B2_000005t.gif

【0091】
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi|a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fiを持つ確率を意味する。P(fi|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、数5の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の数6を用いてスームージングを行ったものを用いる。
【0092】
【数6】
JP0005099498B2_000006t.gif

【0093】
ただし、freq(fi,a)は、素性fiを持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
【0094】
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
【0095】
決定リスト方法では、あらかじめ設定しておいた素性fj( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の数7によって与えられる。
【0096】
(数7)
p(a|b)=p(a|fmax )

ただし、fmax は以下の数8によって与えられる。
【0097】
【数8】
JP0005099498B2_000007t.gif

【0098】
また、P(ai|fj)(ここでPはpの上部にチルダ)は、素性fjを文脈に持つ場合の分類aiの出現の割合である。
【0099】
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、以下所定の条件式(数9)を満足しながらエントロピーを意味する数10を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。
【0100】
【数9】
JP0005099498B2_000008t.gif

【数10】
JP0005099498B2_000009t.gif

【0101】
ただし、A、Bは分類と文脈の集合を意味し、gj(a,b)は文脈bに素性fj があって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai|fj)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。
【0102】
数9は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化( 確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の非特許文献10に記載されている。
【0103】
<nplcit num="10"> <text>Eric Sven Ristad, Maximum Entropy Modelingfor Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997</text></nplcit>
【0104】
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。図8にサポートベクトルマシン法のマージン最大化の概念を示す。図8において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図8(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図8(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。
【0105】
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図8(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。
【0106】
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。
【0107】
この拡張された方法は、以下の識別関数(数11)を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
【0108】
【数11】
JP0005099498B2_000010t.gif

【0109】
ただし、xは識別したい事例の文脈(素性の集合) を、xiとyj (i=1,...,l,yj∈{1,-1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
-1(otherwise )
であり、また、各αiは数13と数14の制約のもと数12を最大にする場合のものである。
【0110】
【数12】
JP0005099498B2_000011t.gif

【数13】
JP0005099498B2_000012t.gif

【数14】
JP0005099498B2_000013t.gif

【0111】
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。
【0112】
(数15)
K(x,y)=(x・y+1)d

C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi>0となるxi は、サポートベクトルと呼ばれ、通常、数8の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
【0113】
なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献11および非特許文献12に記載されている。
【0114】
<nplcit num="11"> <text>Nello Cristianini and John Shawe-Taylor, AnIntroduction to Support Vector Machines and other kernel-based learningmethods,(Cambridge University Press,2000)</text></nplcit><nplcit num="12"> <text>Taku Kudoh, Tinysvm:Support Vectormachines,(http://chasen.org/~taku/software/TinySVM/,2002年)</text></nplcit>
【0115】
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
【0116】
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n-1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n-1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。
【0117】
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、aと推定する。
【0118】
以上のように機械学習の手法は様々であるが、本発明はそのいずれも関連データ間関係検出部(104)に利用することができる。すなわち、関連データ間の関係、例えば2つの関連データを連続して入力した時に、その順序が正しければ1、正しくなければ0という解、さらにその確からしさを解として求めることができる。
【0119】
学習の際には教師データ入力部(1041)が予め用意してある教師データを入力する。教師データは、外部記憶装置等に格納しておけばよい。教師データには、予め前後の分かっている2つの関連データが含まれており、解としては例えば含まれている順序が正しければ1、含まれている順序と正解が逆のときには0と考えればよい。この解の定め方は機械学習方法や必要となる結果に応じて適宜設計することができる。
その上で、上記した機械学習方法のいずれかによって解の求め方は次のように異なる。
【0120】
例えば、本発明の実施の形態において、機械学習処理部(1043)が、機械学習の手法としてk近傍法を用いる場合、機械学習処理部(1043)は、教師データ入力部(1041)で入力した教師データから抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として関連データ間関係規則(130)に記憶しておく。
【0121】
そして、関係判定部(1044)は、関連データ共起ファイル(231)から解-素性対抽出部(1042)が抽出したデータについて、関連データ間関係規則(130)において定義された前後関係の正誤の確率と、素性とを参照して、そのデータが正解である可能性が高い順にk個の素性を関連データ間関係規則(130)の事例から選択し、選択したk個の素性での多数決によって正しいか否かという分類先を、解として推定する。
【0122】
すなわち、関係判定部(1044)では、抽出された各データに対して、どのような解(分類先)になりやすいかの度合いを、選択したk個の素性での多数決の票数、ここでは「正しい(関連データ共起ファイル内の関連データの序列が正しい順序である)」という分類が獲得した票数とする。この票数が過半数以下であれば、逆に出現順と逆が正しいことになる。
【0123】
また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習処理部(1043)は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として関連データ間関係規則(130)に記憶する。
【0124】
そして、関係判定部(1044)は、関連データ共起ファイル抽出部(103)が関連データ共起ファイル(231)を抽出したときに、関連データ間関係規則(130)の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて解-素性対抽出部(1042)で取得した素性の集合について、出現順が正解か否かに係わる各分類になる確率を算出して、その確率の値が最も大きい分類を、そのデータについての素性の分類(解)と推定する。
【0125】
すなわち、関係判定部(1044)では、抽出されたデータについての素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「出現順が正しい」という分類になる確率とする。
【0126】
機械学習手法として決定リスト法を用いる場合には、機械学習処理部(1043)は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを関連データ間関係規則(130)に記憶する。そして、関連データ共起ファイル抽出部(103)が関連データ共起ファイル(231)を抽出したときに、関係判定部(1044)は、関連データ間関係規則(130)のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。
【0127】
すなわち、関係判定部(1044)では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「出現順が正しい」という分類になる確率のリストにおける優先順位とする。
【0128】
また、機械学習手法として最大エントロピー法を使用する場合には、機械学習処理部(1043)は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて関連データ間関係規則(130)に記憶する。そして、関連データ共起ファイル抽出部(103)が関連データ共起ファイル(231)を抽出したときに、関係判定部(1044)は、関連データ間関係規則(130)の確率分布を利用して、抽出されたファイルについてその素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、関係判定部(1044)では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「出現順が正しい」という分類になる確率とする。
【0129】
機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習処理部(1043)は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて関連データ間関係規則(130)に記憶する。
本実施例の関連データ間関係規則(130)は請求項3等の機械学習を用いた方法で共通に用いることの出来る関連データ間関係規則の一例である。
【0130】
そして関連データ共起ファイル抽出部(103)が関連データ共起ファイル(231)を抽出したときに、関係判定部(1044)は、関連データ間関係規則(130)の超平面を利用して、抽出されたデータについての素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。
【0131】
すなわち、関係判定部(1044)では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例(出現順が正しいデータ)の空間への距離の大きさとする。より詳しくは、出現順が正しいデータを正例、風評情報ではないデータを負例とする場合に、分離平面に対して正例側の空間に位置するデータが「出現順が正しいデータ」と判断され、その事例の分離平面からの距離をそのデータの出現順が正しい度合いとする。
【0132】
さらに、本発明では機械学習の手法として、公知のニューラルネットワークによる方法、重回帰分析による方法を用いることもできる。
例えば、求める分類が2種類であれば重回帰分析を利用することができる。重回帰分析をコンピュータ上で実行する方法については、非特許文献13に詳しい。
【0133】
<nplcit num="13"> <text>「Excelで学ぶ時系列分析と予測」3章,オーム社</text></nplcit>
【0134】
重回帰分析の場合は、素性の数だけ説明変数xを用意し、素性のありなしを、その説明変数xの値を1,0で表現する。目的変数(被説明変数)は、ある分類の場合を値1、他の分類の場合を値0として求めればよい。
【0135】
以上に説述した通り、本発明は公知の任意の機械学習手法を備えた機械学習モジュールを用いることで、関連データ間関係規則(130)を生成した上で、関係判定部(1044)が、出現順が正解か否かを的確に判定する。
出現順が正解か否かは、上述したように機械学習手法によって「出現順が正しい」「出現順と正しい順序は逆である」のいずれかで出力される場合もあるし、「出現順が正しい確率」が出力される場合もある。「出現順が正しい確率」が大きな順にその確率と共に出力されてもよい。また、確率を示すための書式、例えば、文字色や文字サイズ、あるいは確率を示すマークなどと共に出力されてもよい。
【0136】
本実施例において、ルールベースに基づく方法や機械学習を用いる方法のいずれにおいても、確率が最も高いものや、高い方から順に所定の個数を取り出すことができる。また、ある閾値を設定して、その閾値以上のものを抽出することもできる。所定の閾値以上のもので、かつ確率が高い方から所定の個数だけを抽出してもよい。このようにデータをどのような基準で抽出するかは本発明において任意である。
閾値や所定の個数は予め本装置に備えて固定してもよいし、ユーザが変更できるようにしてもよい。
【0137】
本発明では、素性として2つの関連データの出現位置を用いることができる。ここでいう出現位置とは絶対的な位置の他、2つの関連データの相対的な位置も含まれる。絶対的な出現位置とは、例えばファイル内の関連データが始まる文字数、行、列などである。相対的な位置とは、どちらが前後にあるかの他、何文字前(後)にあるかを示す文字数などである。
【0138】
素性としては、関連データと同時に含まれる文字列を用いることもできる。例えば前述のルールベースで示したような「新住所」「旧住所」などの文字列が含まれているか、あるいは何が含まれているかを素性とすることができる。
また、逆に含まれていない、ということも素性にすることができる。すなわち文字列「変更」や「移転」が含まれていないことは、その関連データ共起ファイルにおいてそもそも関連データ間の前後関係を示していない可能性を示唆するものであり、それによって確率を算出する素性として用いることができる。
【0139】
同時に含まれる文字列は、関連データの一部の文字列であってもよい。例えば、教師用関連データの一部に、古いビル名と新しいビル名が含まれているような場合、それらの文字列を素性としておくことで、新しいビル名が後のデータであることの検出に寄与する。市町村合併などによる住居表示変更の場合にも同様に検出することができる。
【0140】
タグ情報を素性としてもよい。上述した構成と同様に、関連データの表の枠線のタグや、フォントを設定するタグなどを素性とすることができる。
これらは単独で用いるだけでなく、組み合わせて素性とすることができる。例えば、図4のような表において、「旧住所」「新住所」という同時に含まれる文字列と、それぞれの直下に各関連データが配置されているというタグ情報、さらに第1関連データ(24c)が前で、第2関連データ(25c)がその直後という相対的位置関係をすべて素性とすることができる。
【0141】
本発明の関連データ抽出部(102)において特徴的な関連データを効率よく抽出するために、固有表現の抽出技術を用いてもよい。すなわち、本発明のCPU(10)に図示しない判定対象名詞抽出部を備えて、第1コンテンツファイル(20)、第2コンテンツファイル(21)からそれぞれ固有表現を抽出する。以下簡単に説明する。
【0142】
(1)固有表現抽出のために機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の非特許文献14参照)。
【0143】
<nplcit num="14"> <text>浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002年</text></nplcit>
【0144】
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B-LOCATION、 I-LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。

日 B-LOCATION
本 I-LOCATION
の O
首 O
相 O
は O
小 B-PERSON
泉 I-PERSON
さ O
ん O
で O
す O
。 O

上記において、B-???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、B-LOCATIONは、地名という固有表現の始まりを意味しており、B-PERSONは、人名という固有表現の始まりを意味している。また、I-???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、O はこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
【0145】
このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。
【0146】
この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B-LOCATION
の部分は、
日本-B 名詞-B
などの情報を用いる。日本-B は、日本という単語の先頭を意味し、名詞-Bは、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChasenによる形態素解析を用いる。上述したChasenは各単語の品詞も推定することができるので、「学校へ行く」を入力すると以下の結果を得る。
【0147】
学校 ガッコウ 学校 名詞-一般
へ ヘ へ 助詞-格助詞-一般
行く イク 行く 動詞-自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
【0148】
なお、例えば、上記の非特許文献14では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「B-PERSON」等)を利用している。
【0149】
これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。
【0150】
固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(非特許文献15参照)。
【0151】
<nplcit num="15"> <text>内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エ ントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2, 2000年</text></nplcit>
【0152】
また、例えば、以下の非特許文献16に、サポートベクトルマシンを用いて日本語固有
表現抽出を行う手法について記載されている。
【0153】
<nplcit num="16"> <text>山田寛康,工藤拓,松本裕治,SupportVector Machineを用いた日本語固有表現抽出,情報処理学会論文誌, Vol.43, No.1", 2002年</text></nplcit>
【0154】
(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「株式会社」だと企業名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
【0155】
以上の方法によって固有表現を抽出し、抽出された表現のうち、例えば人名や企業名などを解-素性対抽出部(1042)において抽出することができる。
【0156】
このように固有表現だけを関連データとして抽出することで、前後関係を検出する必要のない関連データを抽出することを防止でき、特に対象データにとって重要な関連データについて本発明の順序の検出を行うことができる。
【0157】
(実施例3)
本発明は、関連データからその前後を検出する上記の方法に限らず、関連データと共起する共起データから前後を検出する方法を提供することもできる。以下、請求項5ないし8等に記載の本発明の実施例について説述する。
図9は本実施例に係るデータ処理装置(1’)の構成図である。上記実施例1と同一の構成部については同一符号を付し、説明を省略する。
【0158】
CPU(10)には入力部(106)、関連データ抽出部(107)、共起データ抽出部(108)、共起データ間関係検出部(109)、出力部(105)が設けられている。本構成により図10に示す処理を実行する。
【0159】
まず、入力部(106)が外部記憶装置(3)あるいはインターネット、LAN(Local Area Network)等のサーバ上からネットワークアダプタ(40)を介して第1コンテンツファイル(20)及び第2コンテンツファイル(21)を取得し、CPU(10)内に取り込む処理を行う。
【0160】
請求項5に記載の関連データ抽出手段である関連データ抽出部(107)では、予め定義してある対象データ(22)と関連する関連データを異なるファイルである各コンテンツファイル(20)(21)から抽出する。(関連データ抽出ステップ:S10) 本処理は実施例1と同様である。コンテンツファイルは同一のファイルでもよい。
【0161】
そして共起データ抽出手段である共起データ抽出部(108)において、第1コンテンツファイル(20)やコンテンツデータ(23)から、第1関連データ(24)と共起している単数又は複数の文字列である第1共起データ(30)、第2コンテンツファイル(21)やコンテンツデータ(23)から、第2関連データ(25)と共起している単数又は複数の文字列である第2共起データ(31)を抽出する。(共起データ抽出ステップ:S20)
【0162】
なお、別実施例として請求項6等に記載のように、図示しない共起データ共起ファイル抽出ステップを、上記共起データ抽出ステップ(S20)の直後に設けて、第1共起データと第2共起データとが共起する共起データ共起ファイルを抽出してもよい。
抽出された共起データや共起データ共起ファイルから共起データ間関係検出手段である共起データ間関係検出部(109)が共起データ間関係規則(131)を参照して、第1共起データ(30)と第2共起データ(31)の順序を検出する。(共起データ間関係検出ステップ:S21)
【0163】
本実施例では、関連データ間関係検出ステップ(S12)に代わって共起データ間関係検出を行っているが、関連データについて行う場合と全く同様に共起データについて処理すればよい。共起データ間関係規則(131)についても関連データ間関係規則(130)と異なるところはない。
【0164】
共起データ間関係検出ステップ(S21)においても、請求項7等に記載のようにルールベースで作成された共起データ間関係規則(131)を用いてもよいし、請求項8等に記載のように機械学習により作成された共起データ間関係規則(131)を用いてもよい。
ルールベースの作成方法、機械学習方法についても上記実施例と同様である。
【0165】
さらに、出力部(110)では、前後の決定された共起データに合わせて、関連データの前後を出力する。(出力ステップ:S22)
すなわち、第1共起データが後、第2共起データが前と検出された場合には、第1関連データを後、第2関連データを前として出力する。
【0166】
上記の処理について具体例を用いて説明すると、図11(A)に示すような第1コンテンツファイル(20e)には対象データ(22e)と第1関連データ(24e)が含まれる。また第2コンテンツファイル(21e)には同じ対象データ(22e)と第2関連データ(25e)が含まれる。これらを関連データ抽出ステップ(S10)において抽出する。
【0167】
次にコンテンツデータ(23)中の2つのファイル(231e)(231f)から、それぞれ第1関連データ(24e)と共起する第1共起データ(30e)、第2関連データ(25e)と共起する第2共起データ(31e)を共起データ抽出ステップ(S20)で抽出する。
【0168】
図示するように、2つの関連データにはそれぞれ異なるビル名、●●●●●ビルと×××××ビルが記載されているだけであり、ルールベースによる実施例1や機械学習を用いた実施例2でも両者の前後関係が判定できないことがある。そのとき、本発明による共起データを用いる方法を適用する。
【0169】
すなわち、●●●●●ビルとは2005年10月1日という日付が、×××××ビルとは2008年4月1日という日付がそれぞれ共起しており、それらの共起データ(30e)(31e)を比較することで、●●●●●ビルと×××××ビルとの前後を判定しようとするものである。
ここで挙げた例は単純な例であり、共起データ間関係規則に日付があったときにはその前後で共起データ間の関係を決定すると定めておけば共起データ間関係検出ステップ(S21)において、2008年4月1日である第2共起データ(31e)が後と検出される。
【0170】
その結果、出力ステップ(S22)では、共起データが後と判定された第2関連データ(25e)が後、第1関連データ(24e)が前と出力される。
なお、共起データを抽出するコンテンツデータ(23)は、例示した「ビル完成情報」のように定型的にビルの完成した情報が記載されたデータを用いれば、極めて高い精度で共起データから関連データの前後を検出することができる。しかし、本発明は多数のコンテンツデータ(23)から多数のルールベースで、あるいは機械学習により検出することができるので、これほど定型的なものでなく、ただ共起する日付が古いものが多い、新しいものが多い、というようにあいまいな複数のデータからでも検出することができる。
【0171】
また、図13ないし図15には別の実施例を挙げる。まず、図13に示すように1つのコンテンツファイル(20g)から対象データ△△(22g)に関連する第1関連データ(24g)と第2関連データ(25g)を抽出する。(S10) このように関連データは同一のコンテンツファイル(20g)から抽出してもよい。
【0172】
図3(A)で示した例と異なり、新住所と旧住所が共起していても、「新」「旧」を表すために文字でなくグラフィックを用いているような場合、前述した方法で両者の前後関係(新旧関係)を検出することはできない。
【0173】
そこで第1関連データ(24g)、第2関連データ(25g)と共起する第1共起データ(30g)、第2共起データ(31g)を抽出する。図14に示すように、それぞれを1つのコンテンツファイル(20)の一部(20h)(20i)において、各関連データから所定の文字数内(例えば前後50文字以内)に出現する文字列を共起データとすることができる。本実施例では、旧住所「東京都中央区駅前1-2-3」(24g)と共起する「XYZビル」(30g)が第1共起データであり、新住所「東京都中央区駅間9-8-7」(25g)と共起する「ABCビル」(31g)が第2共起データである。
【0174】
さらに、これらの2つの共起データ(30g)(31g)が共起する共起データ共起ファイル(231g)を抽出する。該ファイル(231g)において、文字列「XYZビル」と文字列「ABCビル」の間には「から」が含まれており、上述したようにルールベースを用いても「ABCビル」が新しい住所と判定できる。
【0175】
このように共起データを用いるのは、関連データが必ずしも順序を検出するのに最適でない場合があるからである。例えば、前後を検出したい関連データが住所である場合に、住所は住居表示の変更などがない限り、住所だけを見て前後を検出することは難しい。関連データ間関係規則(130)を機械学習結果とする場合でも、位置などから学習して精度良く検出できる場合はあるが、位置も出現位置の前後程度しか特色がなく、あとは住所データのみが関連データの場合に、十分な確度で選択できないことがある。
【0176】
上記で示した例の他にも、電話が住所と共起していて、それらを共起データ(30)(31)とした場合に、例えば電話の市外局番の表記方法が変更になった事実から関連データの前後を検出できることが考えられる。すなわち、第1共起データ(30)が、「(0424)12-1234」という電話番号で、第2共起データ(31)が「「(042)321-1234」という電話番号であったとき、共起データ間関係規則(131)には、市外局番が3桁化された方が新しい(後)という学習結果が格納されていれば、第1関連データ(24)と第2関連データ(25)を較べても前後が明らかでない場合にもいずれが前後か検出することができる。
【0177】
さらに、各関連データと共起するデータにさらに共起するデータを用いてもよい。すなわち、コンテンツファイルが会社名・郵便番号・住所であり、対象データ(会社名)の関連データ(住所)に対応する1次の共起データが郵便番号であったとして、さらにその郵便番号と別のコンテンツファイルで共起する2次の共起データが郵便局名であるときに、その郵便局名であれば前後が容易に検出できることがあり得る。そのような場合に、2次、3次の共起データを用いることもできる。
【0178】
(他言語への適用)
本発明は、日本語以外の言語であっても対象とることができる。例えば、コンテンツファイルやコンテンツデータが英語のテキストファイルであって、対象データ・関連データ・共起データ等がすべて英語の単語又は節(2以上の単語からなる集合)でもよい。
英語のように分かち書きをする言語では単語の抽出は簡単であるが、形態素解析を行って品詞情報を得ることで固有名詞などを的確に抽出することができる。英語の形態素解析を行う手法として、非特許文献17に開示される手法がある。
【0179】
<nplcit num="17"> <text>Eric Brill, Transformation-BasedError-Driven Learning and Natural Language Processing: A Case Study inPart-of-Speech Tagging, Computational Linguistics, Vol. 21, No. 4, p.543-565,1995.</text></nplcit>
【0180】
また、関連データ抽出ステップ(S10)、関連データ共起ファイル抽出ステップ(S11)、関連データ間関係検出ステップ(S12)、共起データ(S20)、共起データ間関係検出ステップ(S21)、共起データ共起ファイル抽出ステップなど、本発明の各処理において、日本語と英語を翻訳してから実行処理することができる。
【0181】
例えば、対象データ"Triangle Corporation"に対して関連データ"1-2-3 Ekimae, Chuo-ku,Tokyo"が含まれるとき、それぞれを翻訳して「△△株式会社」「東京都中央区駅前1-2-3」としてから用いることができる。
このような翻訳には訳語辞書、すなわちcar-車のように訳語が対になって表記される辞書を用いて単に置き換えることもできるし、公知の翻訳ソフトウェアなどによって単語・テキスト翻訳してもよい。
【0182】
最後に、住所変更情報を取得するアルゴリズムの一例と、その実験例を示す。
まず、所定の検索エンジンを用いて、会社名「セレスター通信株式会社」と「本社」をAND検索する。その検索結果の一部を次に示す。
【0183】
【表3】
JP0005099498B2_000014t.gif
以降省略

【0184】
これらの検索結果から、社名と「本社」という単語の間に、会社という単語がない場合に、「本社」以降の表現を住所の部分表現として抽出(ただし記号などは除く)する。また、日付表現を、次の正規表現で抽出する。
【0185】
【表4】
JP0005099498B2_000015t.gif

【0186】
そして、社名と「本社」という単語の間のバイト数を計算する。バイト数、住所の部分表現、日付表現、元の検索エンジンの出力データをスペースで区切って出力すると次のようになる。
【0187】
【表5】
JP0005099498B2_000016t.gif

【0188】
表5の出力から下記の入力1、入力2のデータを作成する。すなわち、住所の部分表現の種類の分だけ、「社名」と「住所の部分表現」のAND検索用のデータを作成する。
【0189】
【表6】
JP0005099498B2_000017t.gif


【0190】
入力1、2を検索エンジンでAND検索する。このときの入力1、入力2の検索エンジンの出力はそれぞれ次の通りであった。
【0191】
【表7】
JP0005099498B2_000018t.gif
以下省略

【0192】
【表8】
JP0005099498B2_000019t.gif
以下省略

【0193】
検索エンジンの結果から、住所の完全情報を取得する。そのために、社名と、住所の部分表現の間に、会社や研究所という単語がない場合に、住所の部分表現以降の表現を、句点読点、省略表現、括弧表現、空白表現を含まないまでのものを、住所の部分表現も含めて、住所表現として抽出する。また、日付表現を、下記の正規表現で抽出する。
【0194】
【表9】
JP0005099498B2_000020t.gif

【0195】
社名と住所の部分表現の間のバイト数を計算し、バイト数、住所表現、日付表現、元の検索エンジンの出力データをスペースで区切って出力する。
【0196】
【表10】
JP0005099498B2_000021t.gif

【0197】
【表11】
JP0005099498B2_000022t.gif

【0198】
表5の出力における住所を表10、11の表現で補完してさらに、日付の新しい順に出力する。
【0199】
【表12】
JP0005099498B2_000023t.gif

【0200】
次に、社名変更情報の取得する方法についても実験を行った。
1.「社名」、「変更」という単語で検索エンジンでAND検索する。その結果が次の通りであった。
【0201】
【表13】
JP0005099498B2_000024t.gif

以降省略

【0202】
2.社名と変更を含む文から
[A]は.....「[B]」..... のパターンに適合する
[A],[B]を取り出す.
[A] は元の社名で,[B] が新しい社名とする.
以下、[A]、 [B]、取り出した元の文をスペースで区切って出力する。
【0203】
【表14】
JP0005099498B2_000025t.gif

【0204】
上記のように、この方法でも多くの社名変更情報が抽出できることがわかった。さらに既存の社名の辞書を用意しておき,[A]が既存の社名辞書にあるものだけを抽出することでさらに性能高く社名の変更情報を取得できると考えられる。
【図面の簡単な説明】
【0205】
【図1】本発明のデータ処理装置の全体構成図である。
【図2】本発明のデータ処理方法の処理フローチャートである。
【図3】関連データ共起ファイルの例
【図4】関連データ共起ファイルの例
【図5】関連データ共起ファイルの例
【図6】本発明の第3の実施例における関連データ間関係検出部の構成図である。
【図7】機械学習の処理を説明する説明図である。
【図8】機械学習(SVM)の処理を説明する説明図である。
【図9】本発明の第3の実施例におけるデータ処理装置の全体構成図である。
【図10】本発明の第3の実施例におけるデータ処理方法の処理フローチャートである。
【図11】関連データ共起ファイルの例
【図12】共起データ共起ファイルの例
【図13】関連データ共起ファイルの例
【図14】共起データ共起ファイルの例
【図15】共起データ共起ファイルの例
【符号の説明】
【0206】
1 データ処理装置
10 CPU
11 キーボード・マウス
12 モニタ
13 ハードディスク
14 ネットワークアダプタ
101 入力部
102 関連データ抽出部
103 関連データ共起ファイル抽出部
104 関連データ間関係検出部
105 出力部
130 関連データ間関係規則データベース
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13
【図15】
14