TOP > 国内特許検索 > 情報抽出装置、情報抽出方法、及び情報抽出プログラム > 明細書

明細書 :情報抽出装置、情報抽出方法、及び情報抽出プログラム

発行国 日本国特許庁(JP)
公報種別 再公表特許(A1)
発行日 平成29年11月2日(2017.11.2)
発明の名称または考案の名称 情報抽出装置、情報抽出方法、及び情報抽出プログラム
国際特許分類 G06F  17/22        (2006.01)
G06F  17/30        (2006.01)
FI G06F 17/22 647
G06F 17/30 210A
G06F 17/30 140
G06F 17/30 170A
G06F 17/30 350C
G06F 17/22 611
国際予備審査の請求 未請求
全頁数 24
出願番号 特願2016-564846 (P2016-564846)
国際出願番号 PCT/JP2015/084974
国際公開番号 WO2016/098739
国際出願日 平成27年12月14日(2015.12.14)
国際公開日 平成28年6月23日(2016.6.23)
優先権出願番号 2014253058
優先日 平成26年12月15日(2014.12.15)
優先権主張国 日本国(JP)
指定国 AP(BW , GH , GM , KE , LR , LS , MW , MZ , NA , RW , SD , SL , ST , SZ , TZ , UG , ZM , ZW) , EA(AM , AZ , BY , KG , KZ , RU , TJ , TM) , EP(AL , AT , BE , BG , CH , CY , CZ , DE , DK , EE , ES , FI , FR , GB , GR , HR , HU , IE , IS , IT , LT , LU , LV , MC , MK , MT , NL , NO , PL , PT , RO , RS , SE , SI , SK , SM , TR) , OA(BF , BJ , CF , CG , CI , CM , GA , GN , GQ , GW , KM , ML , MR , NE , SN , TD , TG) , AE , AG , AL , AM , AO , AT , AU , AZ , BA , BB , BG , BH , BN , BR , BW , BY , BZ , CA , CH , CL , CN , CO , CR , CU , CZ , DE , DK , DM , DO , DZ , EC , EE , EG , ES , FI , GB , GD , GE , GH , GM , GT , HN , HR , HU , ID , IL , IN , IR , IS , JP , KE , KG , KN , KP , KR , KZ , LA , LC , LK , LR , LS , LU , LY , MA , MD , ME , MG , MK , MN , MW , MX , MY , MZ , NA , NG , NI , NO , NZ , OM , PA , PE , PG , PH , PL , PT , QA , RO , RS , RU , RW , SA , SC , SD , SE , SG , SK , SL , SM , ST , SV , SY , TH , TJ , TM , TN , TR , TT , TZ , UA , UG , US
発明者または考案者 【氏名】坂本 一憲
【氏名】本位田 真一
出願人 【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
個別代理人の代理人 【識別番号】100100158、【弁理士】、【氏名又は名称】鮫島 睦
【識別番号】100131808、【弁理士】、【氏名又は名称】柳橋 泰雄
審査請求 未請求
テーマコード 5B109
Fターム 5B109NH12
5B109SA14
要約 構造化された文書の仕様が変更した場合であっても、仕様変更前に抽出した特定情報を仕様変更後も容易且つ確実に抽出することが可能な情報抽出装置を提供する。情報抽出装置(100)は、構造化された複数の文書間で異なる部分を可変要素として抽出すると共に、各可変要素から所定範囲内にある要素を周辺情報として抽出する制御部(120)と、可変要素のうち少なくとも1つを抽出対象とし、少なくとも抽出対象について可変要素と周辺情報を格納する記憶部(140)と、を有し、制御部は、構造化された複数の文書から可変要素と周辺情報を再抽出し、再抽出した可変要素及び周辺情報と記憶部に格納されている可変要素及び周辺情報とに基づいて、再抽出前後の可変要素及び周辺情報の類似度を計算し、計算した類似度に基づいて、抽出対象に対応する可変要素を再抽出後の可変要素の中から特定する。
特許請求の範囲 【請求項1】
構造化された複数の文書を取得し、取得した複数の文書間で異なる部分を可変要素として抽出すると共に、各可変要素から所定範囲内にある要素を周辺情報として抽出する、制御部と、
前記可変要素のうち少なくとも1つを抽出対象とし、少なくとも前記抽出対象について前記可変要素と前記周辺情報を格納する記憶部と、
を有し、
前記制御部は、前記構造化された複数の文書を再度取得して、再度取得した複数の文書間で異なる部分を可変要素として再抽出すると共に、再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出し、再抽出した前記可変要素及び前記周辺情報と前記記憶部に格納されている前記可変要素及び前記周辺情報とに基づいて、再抽出前後の前記可変要素及び前記周辺情報の類似度を計算し、計算した前記類似度に基づいて、前記抽出対象に対応する前記可変要素を再抽出後の前記可変要素の中から特定する、
情報抽出装置。
【請求項2】
再抽出後の前記可変要素の中から、前記抽出対象の可変要素に対する類似度が最も高い可変要素を特定する、請求項1に記載の情報抽出装置。
【請求項3】
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素の類似度を計算し、且つ再抽出した前記周辺情報と前記記憶部に格納されている前記周辺情報の類似度とを計算し、前記可変要素同士の類似度と前記周辺情報同士の類似度とに基づいて、前記抽出対象に対応する可変要素を再抽出後の前記可変要素の中から特定する、請求項1に記載の情報抽出装置。
【請求項4】
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素とにそれぞれ含まれる数字部分と文字部分を、前記数字部分と前記文字部分に分割し、前記数字部分同士の類似度と前記文字部分同士の類似度とに基づいて、前記可変要素の類似度を決定する、請求項1に記載の情報抽出装置。
【請求項5】
前記構造化された複数の文書の差分を計算することにより、前記可変要素を抽出する、請求項1に記載の情報抽出装置。
【請求項6】
抽出された前記可変要素を表示する表示部と、
表示された前記可変要素の中からユーザにより選択された前記抽出対象を入力する入力部と、
をさらに有する、請求項1に記載の情報抽出装置。
【請求項7】
対象とする文書を複数回取得し、複数回取得した文書間で所定回数異なった部分を除外要素として、前記可変要素から除外する、請求項1に記載の情報抽出装置。
【請求項8】
構造化された複数の文書を取得するステップと、
取得した複数の文書間で異なる部分を可変要素として抽出するステップと、
各可変要素から所定範囲内にある要素を周辺情報として抽出するステップと、
前記可変要素のうち少なくとも1つを抽出対象とし、少なくとも前記抽出対象について前記可変要素と前記周辺情報を記憶部に格納するステップと、
前記構造化された複数の文書を再度取得するステップと、
再度取得した複数の文書間で異なる部分を可変要素として再抽出するステップと、
再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出するステップと、
再抽出した前記可変要素及び前記周辺情報と前記記憶部に格納されている前記可変要素及び前記周辺情報とに基づいて、再抽出前後の前記可変要素及び前記周辺情報の類似度を計算するステップと、
計算した前記類似度に基づいて、前記抽出対象に対応する可変要素を再抽出後の前記可変要素の中から特定するステップと、
を含む、情報抽出方法。
【請求項9】
再抽出後の前記可変要素の中から、前記抽出対象の可変要素に対する類似度が最も高い可変要素を特定する、請求項8に記載の情報抽出方法。
【請求項10】
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素の類似度を計算し、且つ再抽出した前記周辺情報と前記記憶部に格納されている前記周辺情報の類似度とを計算し、前記可変要素同士の類似度と前記周辺情報同士の類似度とに基づいて、前記抽出対象に対応する可変要素を再抽出後の可変要素の中から特定する、請求項8に記載の情報抽出方法。
【請求項11】
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素にそれぞれ含まれる数字部分と文字部分を、前記数字部分と前記文字部分に分割し、前記数字部分同士の類似度と前記文字部分同士の類似度とに基づいて、前記可変要素の類似度を決定する、請求項8に記載の情報抽出方法。
【請求項12】
前記構造化された複数の文書の差分を計算することにより、前記可変要素を抽出する、請求項8に記載の情報抽出方法。
【請求項13】
抽出された前記可変要素を表示するステップと、
表示された前記可変要素の中からユーザにより選択された前記抽出対象を入力するステップと、
をさらに含む、請求項8に記載の情報抽出方法。
【請求項14】
対象とする文書を複数回取得し、複数回取得した文書間で所定回数異なった部分を除外要素として、前記可変要素から除外する、請求項8に記載の情報抽出方法。
【請求項15】
構造化された複数の文書を取得するステップと、
取得した複数の文書間で異なる部分を可変要素として抽出するステップと、
各可変要素から所定範囲内にある要素を周辺情報として抽出するステップと、
前記可変要素のうち少なくとも1つを抽出対象とし、少なくとも前記抽出対象について前記可変要素と前記周辺情報を記憶部に格納するステップと、
前記構造化された複数の文書を再度取得するステップと、
再度取得した複数の文書間で異なる部分を可変要素として再抽出するステップと、
再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出するステップと、
再抽出した前記可変要素及び前記周辺情報と前記記憶部に格納されている前記可変要素及び前記周辺情報とに基づいて、再抽出前後の可変要素及び周辺情報の類似度を計算するステップと、
計算した前記類似度に基づいて、前記抽出対象に対応する可変要素を再抽出後の前記可変要素の中から特定するステップと、
をコンピュータに実行させるための情報抽出プログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、構造化された文書から特定情報を抽出する情報抽出装置、情報抽出方法、及び情報抽出プログラムに関する。
【背景技術】
【0002】
従来の情報抽出装置(特許文献1参照)は、同一構造を持つWebページ間の差分を検出し、差分が検出された場所(タグ)を差分領域として特定し、その差分領域に記載されている情報を差分データとして抽出し、差分領域と差分データとを紐付けして特定情報として記憶している。例えば、「郵便番号」のタグと、実際の郵便番号(例えば、100-1000)とを対応付けて記憶する。この情報抽出装置によれば、例えば、AさんとBさんの英語学習記録のWebページの差分を計算することにより、ユーザごとに内容の異なる箇所(ユーザの名前、単語学習時間、文法学習時間など)を個人情報と捉えて抽出することができる。
【0003】
また、別の情報抽出装置(特許文献2参照)は、複数のWebページのツリー構造の各々に共通する部分からデータを抽出する抽出ルールを自動で作成すると共に、その抽出ルールが適用されるWebページのURLを特定する特定ルールを自動で作成している。この情報抽出装置は、作成したWebページのURLを特定するための特定ルールとWebページからデータを抽出するための抽出ルールとを対応付けて記憶している。抽出対象となるWebページからデータ(特定情報)を抽出する際、情報抽出装置は、抽出対象となるWebページのURLが特定される特定ルールを選択し、選択された特定ルールに対応付けられている抽出ルールを選択し、選択された抽出ルールに基づいて抽出対象のWebページからデータ(特定情報)を抽出している。
【0004】
さらに別の情報抽出装置(特許文献3参照)は、複数の個人領域が混在する単一のWebページ(掲示板など)から、個人領域に該当する箇所を特定して抽出し、各個人領域に対応付いている情報を特定する機能を実現している。例えば、掲示板のページにおいて、ユーザが書き込んだ箇所を特定し、ユーザごとに書き込み内容を抽出する。
【0005】
さらに別の情報抽出装置(非特許文献1参照)は、Webアプリケーションに対する機能テストにおいて、仕様変更があった際に、抽出対象となる特定要素の抽出プログラムを修正しなくても、「contextual clues」と呼ばれる周囲の情報を参考にして特定の要素を抽出するルールの記述に関する手法を実現している。例えば、英語学習記録のWebページから単語学習時間と文法学習時間を抽出する際に、「単語学習時間は“単語”という文言付近に存在」及び「文法学習時間は“文法”という文言付近に存在」というルールを用いることにより、特定の情報を継続的且つロバストに抽出している。
【先行技術文献】
【0006】

【特許文献1】特開2012-098855号公報
【特許文献2】特開2012-059212号公報
【特許文献3】特開2012-168892号公報
【0007】

【非特許文献1】Rahulkrishna Yandrapally, Suresh Thummalapenta, Saurabh Sinha, Satish Chandra, "Robust Test Automation Using Contextual Clues", IBM Research Report, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0008】
Webページは、一般に、その仕様(例えば、ページのデザイン、ページ内の情報の配置、及びページのツリー構造)が頻繁に変更される場合がある。しかし、上述した従来の情報抽出装置は、後述するように、構造化された文書(例えば、Webページ)の仕様が変更した場合に、仕様変更前に抽出した特定情報(例えば、個人情報)を仕様変更後は容易且つ確実に抽出することができない。
【0009】
特許文献1の情報抽出装置は、仕様変更前後における抽出情報の追跡を行っていない。そのため、例えば、ある時点で英語学習記録のWebページから単語学習時間と文法学習時間を抽出できたとしても、仕様変更後に抽出した情報が単語学習時間か文法学習時間かを区別できなくなる場合がある。
【0010】
特許文献2の情報抽出装置は、Webページの構造変化を検出した場合、手動又は自動で抽出ルール及び特定ルールを再作成している。すなわち、特許文献2の場合は、Webページに仕様変更があった場合、抽出ルールや特定ルールを再度作成しなおす必要がある。また、特許文献2において抽出される情報は、複数のWebページの共通部分に限定される。
【0011】
特許文献3の情報抽出装置は、Webページのデザインや構成が変化した際の変更前後における抽出情報の追跡を行っていない。
【0012】
非特許文献1の情報抽出装置は、抽出対象となる要素を抽出する際に使用する周辺情報をユーザが選択する必要がある。また、その周辺情報は特定の情報(例えば、“文法”という文言付近)に限定されるため、その周辺情報がWebページの仕様変更により消失した場合に、抽出対象の要素を抽出できなくなる。
【0013】
以上のように、従来の情報抽出装置は、構造化された文書(例えば、Webページ)の仕様が変更した場合に、仕様変更前に抽出した特定情報を仕様変更後は容易且つ確実に抽出することができない。
【0014】
本発明は、構造化された文書(例えば、Webページ)の仕様が変更した場合であっても、仕様変更前に抽出した特定情報を仕様変更後も容易且つ確実に抽出することが可能な情報抽出装置、情報抽出方法、及び情報抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0015】
本発明の情報抽出装置は、構造化された複数の文書(具体的には、構造が等しくコンテキストが異なる複数の文書)を取得し、取得した複数の文書間で異なる部分を可変要素として抽出すると共に、各可変要素から所定範囲内にある要素を周辺情報として抽出する制御部と、可変要素のうち少なくとも1つを抽出対象とし、少なくとも抽出対象について可変要素と周辺情報を格納する記憶部と、を有し、制御部は、構造化された複数の文書を再度取得して、再度取得した複数の文書間で異なる部分を可変要素として再抽出すると共に、再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出し、再抽出した可変要素及び周辺情報と記憶部に格納されている可変要素及び周辺情報とに基づいて、再抽出前後の可変要素及び周辺情報の類似度を計算し、計算した類似度に基づいて、抽出対象に対応する可変要素を再抽出後の可変要素の中から特定する。
【0016】
本発明の情報抽出方法は、構造化された複数の文書を取得するステップと、取得した複数の文書間で異なる部分を可変要素として抽出するステップと、各可変要素から所定範囲内にある要素を周辺情報として抽出するステップと、可変要素のうち少なくとも1つを抽出対象とし、少なくとも抽出対象について可変要素と周辺情報を記憶部に格納するステップと、構造化された複数の文書を再度取得するステップと、再度取得した複数の文書間で異なる部分を可変要素として再抽出するステップと、再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出するステップと、再抽出した可変要素及び周辺情報と記憶部に格納されている可変要素及び周辺情報とに基づいて、再抽出前後の可変要素及び周辺情報の類似度を計算するステップと、計算した類似度に基づいて、抽出対象に対応する可変要素を再抽出後の可変要素の中から特定するステップと、を含む。
【0017】
本発明の情報抽出プログラムは、上記情報抽出方法の各ステップをコンピュータに実行させる。
【発明の効果】
【0018】
本発明の情報抽出装置は、構造化された複数の文書間で異なる部分(例えば、氏名、体重、身長などの個人情報)を可変要素として抽出すると共に、各可変要素から所定範囲内にある要素(例えば、テキスト、HTMLタグ、及び属性等)を周辺情報として抽出し、可変要素のうち少なくとも1つを抽出対象(特定情報)とし、少なくとも抽出対象について可変要素と周辺情報を記憶している。本発明の情報抽出装置によれば、再度、可変要素とその周辺情報を抽出したときに、記憶されている可変要素及び周辺情報と再度抽出された可変要素及び周辺情報の類似度を計算し、その結果に基づいて、抽出対象に対応する可変要素を再抽出後の可変要素の中から特定している。これにより、構造化された文書(例えば、Webページ)の仕様が変更した場合であっても、仕様変更前に抽出した特定情報を仕様変更後も容易且つ確実に抽出する又は追跡することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の実施形態1の情報抽出装置の構成図
【図2】本発明の実施形態1における可変要素及び周辺情報の抽出を示すフローチャート
【図3】本発明の実施形態1におけるWebページに関する具体例であって、(a)はURL、(b)はHTML文書、(c)は可変要素の画面表示をそれぞれ示す図
【図4】本発明の実施形態1におけるメモリに記憶される抽出情報の例
【図5】本発明の実施形態1における特定情報の抽出を示すフローチャート
【図6】本発明の実施形態1におけるWebページの仕様変更前後の例
【図7】本発明の実施形態1における類似度の例
【図8】本発明の実施形態2における対象者のWebページの1分経過前後の例
【図9】本発明の実施形態2における除外候補の抽出及び除外を示すフローチャート
【発明を実施するための形態】
【0020】
以下、本発明の実施形態について、図面を参照しながら説明する。

【0021】
<実施形態1>
本実施形態の情報抽出装置は、構造化された複数の文書(本実施形態において、Webページ)間で異なる部分を可変要素として抽出すると共に、各可変要素から所定範囲内にある要素を周辺情報として抽出し、可変要素のうち少なくとも1つを抽出対象(特定情報)とし、少なくとも抽出対象について可変要素と周辺情報を記憶する。情報抽出装置は、再度、可変要素とその周辺情報を抽出したときに、記憶されている可変要素及び周辺情報と再度抽出された可変要素及び周辺情報の類似度を計算し、その結果に基づいて、抽出対象に対応する可変要素を再抽出後の可変要素の中から特定している。これにより、構造化された文書の仕様が変更した場合であっても、仕様変更前に抽出した特定情報を仕様変更後も容易且つ確実に抽出する、すなわち仕様変更前後において特定情報を追跡することができる。本実施形態によれば、仕様変更前後で抽出箇所の位置を追跡することにより、機械的且つ定常的に特定情報の抽出を行うことができる。以下、構造化された文書がWebページである場合を例にして説明する。

【0022】
1-1. 情報抽出装置の構成
図1に、本発明の実施形態の情報抽出装置の構成を示す。情報抽出装置100は、パーソナルコンピュータなどで実現できる。情報抽出装置100は、ユーザからの入力を受け付ける入力部110、情報抽出装置100全体を制御する制御部120、表示部130、メモリ140、及び通信部150を有する。

【0023】
入力部110は、例えば、構造化された文書の場所を示す情報(本実施形態において、WebページのURL)を入力するのに使用される。入力部110は、また、複数のWebページ間で異なる部分である可変要素の中の少なくとも1つを抽出対象となる特定情報(抽出要素)として選択するのに使用される。入力部110は、例えばキーボード又はタッチパネルである。

【0024】
制御部120は、複数のWebページ間で異なる部分である可変要素及びその周辺情報を抽出する抽出部121、抽出した可変要素及びその周辺情報をメモリ140に書き込む保存部122、及びメモリ140に書き込まれた可変要素及びその周辺情報を使用して、抽出要素を追跡する追跡部123を有する。

【0025】
抽出部121は、対象のWebページを含む複数のWebページの各々の構成情報(本実施形態において、HTML(Hyper Text Markup Language)文書)を対応するURLに基づいて取得し、取得した構成情報に基づいて複数のWebページ間で異なる部分を可変要素として抽出する。本実施形態においては、複数のWebページの差分を計算することにより、可変要素を抽出する。可変要素は、例えば個人情報(氏名、体重、身長など)に該当する。さらに、抽出部121は、対象ページ内の全ての可変要素から所定範囲内にある要素(テキスト、HTMLタグ、及び属性等)を周辺情報として、対象ページ内から抽出する。

【0026】
表示部130は、抽出部121が抽出した可変要素を表示する。表示部130は、ディスプレイなどで実現できる。ユーザは表示部130に表示された可変要素の中から、抽出したい要素を選択し、入力部110に入力する。

【0027】
保存部122は、図4に示すような抽出情報をメモリ140内のデータベース(DB)141に記録する。抽出情報は、対象ページ内の全ての可変要素と、その周辺情報と、ユーザによる抽出対象としての選択の有無を含む。さらに、保存部122は、入力されたURLをメモリ140に格納する。メモリ140は、例えばハードディスクである。なお、メモリ140は、ハードディスクに限らず、光ディスクなどの記憶装置、フラッシュメモリなどの半導体メモリ素子、又はRAMなどであっても良い。

【0028】
追跡部123は、抽出対象として選択された可変要素(特定情報)を追跡する。具体的には、追跡部123は、抽出部121により再度抽出された現在のWebページの可変要素及びその周辺情報と、データベース141の抽出情報とを用いて、再抽出前後の可変要素間の対応関係を復元する。本実施形態において、対応関係の復元は、新たに抽出した可変要素に関する情報とデータベース141に記録済みの可変要素に関する情報との類似度を計算し、類似度の高い可変要素同士を対応付けることにより、行う。より具体的には、類似性の計算は、可変要素自身の類似度と、周辺情報の類似度との両方を総合的に判断することによって行う。これにより、再抽出後の可変要素の中から、以前にユーザが抽出対象として指定した要素を特定する。

【0029】
通信部150は、インターネットなどのネットワークに接続される。抽出部121は、通信部150を介して、URLに対応するHTML文書を取得する。また、通信部150を介して、ユーザによる抽出要素の選択を行っても良い。さらに、追跡された抽出要素を通信部150を介して外部機器に出力しても良い。

【0030】
1-2. 情報抽出装置の動作
図2に、情報抽出装置100による可変要素及び周辺情報の抽出のフローチャートを示す。図3(a)はURL、図3(b)はHTML文書、図3(c)は抽出後の可変要素の画面表示の例をそれぞれ示している。図3(b)の左側が、本実施形態において抽出対象となるWebページ、その右側が抽出対象のWebページとコンテキスト(アカウント、日時など)が異なるWebページを示す。図3(b)の例では、HTML文書は、ユーザごとに、名前、現在の体重、一ヶ月前の体重、及び身長の4種類の情報を含む。図4は、メモリ140に格納される抽出情報のDB141の例を示している。

【0031】
以下、図4に示すように、「55kg(坂本さんの今月の体重)」を抽出対象として選択する場合を例にして、説明する。

【0032】
図2のフローにおいて、まず、入力部110は、図3(a)に示すような複数のWebページのURLを入力する(ステップS201)。具体的には、抽出対象のWebページのURL及び抽出対象のWebページとレイアウト及び構造が等しくコンテキストが異なる1以上の他のWebページのURLを入力する。保存部122は、入力したURLをメモリ140に格納する。抽出部121は、複数のWebページのURLに対応する構成情報(HTML文書)を、通信部150を介して、取得する(ステップS202)。

【0033】
抽出部121は、取得したページ構成情報に基づいて、抽出対象のWebページ内におけるその他のWebページと異なる部分を可変要素として抽出する(ステップS203)。例えば、図3(b)に示すような個人情報が掲載されているWebページから、ユーザごとに異なる個人情報(「55kg」、「54kg」、「171cm」、「坂本」)を可変要素として抽出する。本実施形態においては、可変要素の抽出は、抽出対象のWebページとその他のWebページ間の差分を計算することにより、行う。差分計算として、例えば、既存アルゴリズム(XDiff:Wang, Yuan, David J. DeWitt, and J-Y. Cai. "X-Diff: An effective change detection algorithm for XML documents." IEEE 19th International Conference on Data Engineering, pp. 519-530, 2003.)を使用できる。なお、差分計算は、このアルゴリズムに限定されない。個人情報が偶然同じ内容である場合(例えば、坂本と佐藤が同じ体重又は同じ身長の場合)、その個人情報を可変要素として抽出できなくなる。そのため、抽出対象のページと比較するための他のWebページを複数用意することにより、偶然同じ情報を有する可能性を十分に下げることができ、より正確に可変要素を抽出することができる。

【0034】
抽出部121は、可変要素から所定範囲内(例えば、可変要素の周囲100文字以内)にある要素である周辺情報をWebページの構成情報(HTML文書)の中から抽出する(ステップS204)。具体的には、周辺情報として、HTMLタグ名、属性名、属性値及びテキスト、から構成されるトークン列を抽出する。例えば、図3(b)及び図4に示すように、可変要素“55kg”に対して、テキスト(“あなたの体重は”、“。”)、HTMLタグ(div、span)、属性名(id)及び属性値(“hight”)を抽出する(例えば、“あなたの体重は”、span、id、“bw”、/span、“。”)。

【0035】
抽出部121は、図3(c)に示すように、抽出した可変要素を表示部130に表示する(ステップS205)。これにより、ユーザは対象のWebページ内の可変要素を視認でき、可変要素の中から抽出対象(追跡したい要素)を選択することが可能になる。例えば、ユーザは、図3(c)に示される可変要素から「55kg(現在の体重)」を定常的に抽出する情報として選択する。入力部110は、その選択を入力する(ステップS206)。保存部122は、図4に示すように、抽出対象となるWebページ内の全ての可変要素とその周辺情報、及び入力部110を介して取得した抽出対象としての選択の有無を含む抽出情報をメモリ140内のデータベース141に記憶する(ステップS207)。

【0036】
以上のようにして、抽出対象として選択された特定情報(抽出要素)の追跡に必要な情報記録が完了する。抽出要素の追跡は、データベース141に記録された抽出情報を用いて行う。これにより、Webページの仕様変更によってデザインや構成が変わっても、抽出要素を追跡することを可能にする。

【0037】
図5に、情報抽出装置100による特定情報(抽出要素)の追跡のフローチャートを示す。図6に、Webページの仕様変更前後のHTML文書の例を示す。図7に、記録済みと再抽出後の可変要素の類似度を示す。

【0038】
図5において、情報抽出装置100は、所定の周期(例えば、月1回)又はユーザの指定により、特定情報(抽出要素)の追跡を行う。特定情報(抽出要素)を追跡する際、まず、情報抽出装置100の抽出部121は、メモリ140に格納されているURLを使用して、図2のステップS202及びS203と同様の方法で、再度、複数のWebページの構成情報(HTML文書)を取得し(ステップS501)、現在のWebページの可変要素を抽出する(ステップS502)。例えば、図6に示すように、Webページの仕様変更が起こり、さらに、月が変わり体重が1kg増加したことを想定する。この場合、対象となるWebページの可変要素として、「坂本」、「56kg」、「55kg」、「171cm」が抽出される。その後、抽出部121は、図2のステップS204と同様の方法で、可変要素の周辺情報を再度抽出する(ステップS503)。具体的には、可変要素の周囲100文字から、HTMLタグ名、属性名、属性値、及びテキストから構成されるトークン列を抽出する(例えば、div、“体重:”、span、id、“bw”、/span、/div)。

【0039】
追跡部123は、再抽出した可変要素とデータベース141に記録済みの可変要素とを用いて、可変要素同士の類似度を計算する(ステップS504)。さらに、追跡部123は、再抽出した周辺情報とデータベース141に記録済みの周辺情報とを用いて、周辺要素の類似度を計算する(ステップS505)。このように計算された可変要素自身の類似度と、その周辺情報の類似度とを総合的に判断し、最も類似度の高い組合せが同一の可変要素であるとして類似度の高い可変要素同士を対応付けて、可変要素の対応関係を復元する。これにより、抽出要素を特定する(ステップS506)。すなわち、抽出対象となる特定情報を追跡する。

【0040】
任意の計算方法が、可変要素と周辺情報(周囲の構造化された文字列)の類似度の計算方法として利用できる。例えば、可変要素と周辺情報の類似度の計算において、レーベンシュタイン距離を使用することができる。本実施形態においては、0以上1.0以下で正規化された実数を用いて、類似度を計算する。具体的には、類似度を以下のように定義する。
類似度=「可変要素の類似度(S1)×係数A」+「周辺情報の類似度(S2)×係数B」
(ここで、係数Aと係数Bは0以上の実数、且つ、係数A+係数B=1.0)
係数Aと係数Bはパラメータであり、値を変更して、適用先に応じて類似度計算の精度を調整できる。

【0041】
「可変要素の類似度(S1=0.0~1.0)」は、以下のように定義される。
可変要素の類似度(S1)=「数字部の類似度(S3)×係数C」+「文字部の類似度(S4)×係数D」
(ここで、係数Cと係数Dは0以上の実数、且つ、係数C+係数D=1.0)
よって、可変要素の類似度において、まず、可変要素のテキストを数字部と文字部に分解する。例えば、「55kg」→「55」と「kg」、「56kg」→「56」と「kg」、「171cm」→「171」と「kg」。

【0042】
次に、可変要素における数字部と文字部の類似度を以下のように計算する。可変要素の数字部の類似度(S3)において、まず、抽出要素に対し、再抽出後の可変要素を数字部分の差の絶対値(例えば、|55-55|、|56-55|、|171-55|)で小さい順に並べ、再抽出後の可変要素の順位を決定する。数字部分が無い場合は、差の絶対値を無限大として設定する。その後、「類似度=(差の絶対値の種類数-順位)×1/(差の絶対値の種類数-1)」により、数字部の類似度を求める。例えば、図6上段の抽出要素「55kg」の数字部分「55」に対する再抽出後の可変要素の数字部の類似度(S3)は以下のようになる。
JP2016098739A1_000003t.gif

【0043】
可変要素の文字部(文字列)の類似度(S4)において、まず、可変要素の文字列に対して、最長共通部分列(LCS)の長さを用いる。「文字部の類似度=LCSの長さ/仕様変更前の文字列長」により、文字部の類似度(S4)を求める。例えば、抽出要素「55kg」の文字部分「kg」に対する再抽出後の可変要素の文字部の類似度(S4)は以下のようになる。
JP2016098739A1_000004t.gif

【0044】
以上のように、可変要素の数字部と文字部のそれぞれの類似度から、可変要素全体の類似度を求める。次に、周辺情報(周囲の文字列同士)の類似度(S2)を計算する。例えば、周囲の構造化された文字列「あなたの体重は<span id=“bw”>55kg</span>。先月は54kg!」に対応する周辺情報の類似度を計算する。

【0045】
まず、HTML文書の構造に着目して、トークン列を生成する。例えば、可変要素を除いて、HTMLタグ名、属性名、属性値、及びテキストをそれぞれ1トークンと見なして列にする(「<div>名前:<span id=“name”>坂本</span></div>」から「“div”、“名前:”、“span”、“id”、“name”、“/span”、“/div”」を生成)。次に、可変部分の前後X個(Xは任意)のトークンをそれぞれ周囲の文字列として抽出する(「<div>名前:<span id=“name”>坂本</span></div>」から、前後2個(X=2)であれば、「“id”、“name”、“/span”、“/div”」を抽出。「<div>あなたの体重は<span id=“bw”>55kg</span>。先月は54kg!</div>」から、前後2個(X=2)であれば、「“id”、“bw”、“/span”、“。先月は54kg!”」を抽出)。その後、抽出後に各トークンに対して形態素解析を行い、単語列に変換する(「“id”,“name”,“/span”,“/div”」は変化なし。「“id”,“bw”,“/span”,“。先月は54kg!”」は「“id”,“bw”,“/span”,“。”,“先月”,“は”,“54kg”,“!”」に変換)。

【0046】
このようにして得られる単語列は、例えば前後2トークンを抽出する場合、以下のようになる。
仕様変更前の55kgの周辺情報の単語列は「“id”,“bw”,“/span”,“。”,“先月”,“は”,“54kg”,“!”」となる。
仕様変更後の単語列は、
坂本の周辺情報(1)「“id”,“name”,“/span”,“/div”」、
56kgの周辺情報(2)「“id”,“bw”,“/span”,“/div”」、
55kgの周辺情報(3)「“id”,“lbw”,“/span”,“/div”」、
171cmの周辺情報(4)「“id”,“height”,“/span”,“/div”」となる。

【0047】
得られた単語列同士で比較して、類似度を計算する。具体的には、周辺情報の類似度(S2)は、「周辺情報の類似度=仕様変更前後で共通する単語数/(仕様変更前の単語数+仕様変更後の単語数)により求める。上述の例では、仕様変更前の単語数は8、仕様変更後の単語数は4である。仕様変更前後で共通する単語数は重複も含めて、仕様変更前後の両方の数をカウントする(例えば、仕様変更前の「55kg」の周辺情報と仕様変更後の「坂本」の周辺情報(1)の場合、“id”と“/span”が仕様変更前後の両方に含まれているため、“id”×2と“/span”×2で「4」となる)。

【0048】
このようにして求めた周辺情報の類似度(S2)は以下のようになる。
JP2016098739A1_000005t.gif

【0049】
以上のようにしてそれぞれ求めた、可変要素の文字部の類似度(S4)及び数字部の類似度(S3)並びに周辺要素の類似度(S2)から、係数A,B,C,Dの値をそれぞれA=0.2、B=0.8、C=0.5、D=0.5として、「類似度=((S3×C+S4×D)×A+S2×B))」により得られた、抽出要素(この例では、現在の体重)である仕様変更前の「55kg」に関する最終的な類似度は以下のようになる。
JP2016098739A1_000006t.gif

【0050】
また、「類似度=((S3×C+S4×D)×A+S2×B))」により得られた、Webページの仕様変更前後の各可変要素のペアの類似度の例が図7に示されている。なお、図7では、前述の例の値とは異なるが、上記方法による計算結果により各数値が得られたと仮定している。図7の一番上の「(記録済)55kg」の行において、再抽出後の可変要素の中の「56kg」が、抽出要素「55kg」に対して、類似度が0.4と最も高い。よって、再抽出後の「56kg」と抽出対象として記録済みの「55kg」とに対応関係があるとみなす。すなわち、再抽出後の「56kg」が抽出要素として特定される。

【0051】
なお、記録済みの「54kg」についても、再抽出後の「56kg」に対して、類似度0.3と最も類似度が高い。しかし、「55kg(記録済み)」と「56kg(再抽出後)」のペアは類似度0.4であるのに対し、「54kg(記録済み)」と「56kg(再抽出後)」のペアは類似度0.3であるため、より類似度が高い「55kg(記録済み)」と「56kg(再抽出後)」のペアが対応関係を有するとして、対応関係を復元する。また、図7において、「坂本」と「171cm」は仕様変更前後で可変要素自身のテキストに変化がない。よって、再抽出前後の「坂本」の類似度は0.5と高く、再抽出前後の「171cm」の類似度も0.4と高い。このように、可変要素自身に変更がない場合は、類似度の高いペアが容易に見つかる。対応関係の復元は、類似度の数値が高いペアから順に決定する(0.5(坂本-坂本)、0.4(56kg-55kg)、0.4(171cm-171cm)、0.2(55kg-54kg))。よって、「55kg(再抽出後)」については「54kg(記録済み)」とペアになる。なお、図7においては、全ての要素についてペアが成立する場合を例示しているが、ペアが作成できなかった要素がある場合(例えば、仕様変更後に、性別(男)が含まれている場合)は対応関係がないと判断する。

【0052】
なお、図7においては、類似度の計算を説明するために、対象ページ内の全ての可変要素(抽出要素以外の可変要素を含む。)と再抽出後の可変要素の対応関係を示しているが、抽出要素を特定するための類似度の計算(S504、S505)においては、少なくとも抽出対象として選択された可変要素のみについて類似度を計算しても良い(例えば、図7の一番上の「(記録済)55kg」の行のみ)。

【0053】
このように、再抽出後の各可変要素について、ユーザが選択した抽出要素(特定情報)に対する類似度を計算して、再抽出前後の可変要素の対応関係を復元することにより、抽出対象の特定情報を機械的且つ定常的に抽出する。

【0054】
1-3. まとめ
以上のようにして、情報抽出装置100は記憶している抽出情報(可変要素、周辺情報、及び抽出対象としての選択の有無)に基づいて、対象とするWebページの新たに取得した構成情報から、抽出対象の特定情報を抽出する。Webページは一般にデザインや構造などの仕様が変更される頻度が高く、例えば図6のように仕様が変更される場合がある。しかし、本発明によれば、可変要素及びその周辺情報を用いて特定情報を抽出するため、Webページの構成情報に変更があっても、ユーザが指定した特定情報を自動で抽出(追跡)することができる。また、ユーザが指定した特定情報自体が変更している場合がある。例えば、図6に示すように特定情報の数値(今月の体重の数値)が更新されている場合もある。しかし、本発明によれば、記憶している抽出情報を用いて特定情報を抽出するため、特定情報自体に変更があっても、ユーザが指定した特定情報を自動で抽出(追跡)することができる。

【0055】
本実施形態の情報抽出装置100によれば自動で特定情報を抽出(追跡)することができるため、情報抽出装置100を様々なサービスに利用することができる。例えば、情報抽出装置100が抽出した特定情報を利用して、ユーザが設定した目標に対する達成支援を行い、目標達成の結果に応じて報酬や罰金をユーザに対して行うような、目標達成支援システムに情報抽出装置100を利用しても良い。上述したように、本実施形態の情報抽出装置100によれば、Webページの構成や個人情報に変更があっても、その個人情報を自動で収集できるため、抽出した個人情報を利用したサービスに有用である。

【0056】
近年、Webアプリケーション及びウェアラブルデバイスの発達により、日々の活動や体重などの変動する個人情報を記録及び発信するためのWebサービス(ライフログサービス)が普及している。これらのWebサービスはそれぞれ異なる特徴を有するため、ユーザは複数のWebサービスを利用することになる。しかし、複数のWebサービスを利用した場合、各Webサービスから情報を集約して処理する際の集約コストが増大する。利用サービス数に比例して集約コストが増大するという問題を解決するためには、様々なライフログサービスから情報を抽出して、一括して個人情報を管理する仕組みが必要となる。本発明の情報抽出装置100を利用すれば、既存のライフログサービスを構成するユーザごとのWebページを解析して、情報を抽出することができる。ライフログは日々の活動を記録するため、抽出対象の情報の更新頻度が高い。そのため、Webページから定期的に情報を抽出する際、Webページのデザイン又は構成がライフログサービスの仕様変更に伴い発生した場合、従来の情報抽出装置においては、情報を抽出するメカニズムが機能しなくなる。しかし、本発明の情報抽出装置100によれば、Webページのデザイン又は構成が変化した場合であっても、Webページから機械的且つ定常的に特定情報を抽出し続けることができる。よって、複数のライフログサービスなどから個人情報を収集して、収集した情報と以前収集した履歴を一括して管理する仕組みを実現できる。その結果、情報の集約及び管理コストを低減できる。集約した情報が、読書のページ数や英語の勉強時間などの数値を扱う場合、グラフなどを生成して可視化することが可能となる。また、過去と比べて値が大きく変動している場合は、動機付けのためのフィードバックを与える仕組みを構築することもできる。

【0057】
コンテキストに応じて変化する情報は、個人情報である可能性が高い。よって、個人情報を定期的に収集する場合に、本発明は有用である。また、本発明は、複数のWebページを有するWebアプリに有用である。本発明は、ソフトウェア産業、主にWeb上の情報源を解析するようなソフトウェアを利用する産業において有効に機能する。

【0058】
1-4. 変形例
本実施形態において、周辺情報の類似度(S2)の計算は、可変要素を除いたトークン列を作成することにより行ったが、可変要素を含めたトークン列を作成して行っても良い(例えば、「<div>名前:<span id=“name”>坂本</span></div>」から「“div”、“名前:”、“span”、“id”、“name”、“坂本”、“/span”、“/div”」のトークン列を生成)。この場合、仕様変更前の単語数及び仕様変更後の単語数として、可変要素を含めてカウントしても良い(例えば、可変部分の前後2個のトークンを周囲の文字列として抽出した場合の、使用変更後の坂本の周辺情報(1)「“id”,“name”,“坂本”,“/span”,“/div”」の単語数は5である)。

【0059】
本実施形態の情報抽出装置100は、Webページに限らず、構造化された文書に適用できる。また、可変要素の抽出方法は、差分計算に限らず、任意の方法で行っても良い。また、類似度の計算方法は、本実施形態の例に限らず、任意の方法で行っても良い。

【0060】
上記実施形態においては、抽出部121は、入力部110に入力されたURLに対応するHTML文書を、通信部150を介して取得した。しかし、HTML文書の取得方法はこれに限らない。例えば、URLの入力をせず、通信部150は、ユーザからHTML文書を直接受信しても良い。このように受信したHTML文書はメモリ140に格納されても良い。

【0061】
なお、本実施形態においては、1つのコンピュータにより情報抽出装置100を実現したが、情報抽出装置100の機能を複数の機器により実現しても良い。例えば、入力部110及び表示部130を他の携帯端末に設けても良い。また、抽出部121、保存部122、及び追跡部123は、異なる部品であっても良い。

【0062】
<実施形態2>
本実施形態の情報抽出装置は、抽出対象の候補となる可変要素として、対象者に紐づく情報のみを抽出することができるようにする。具体的には、本実施形態の情報抽出装置は、対象者の文書(本実施形態において、Webページ)内で短期間(例えば、1分毎)に変化した部分(本実施形態においては、現在時刻)を可変要素から除外する。このように、可変要素として抽出したくない要素(本実施形態の場合、現在時刻などの対象者に紐づかない情報)を除外要素として、可変要素から除外することにより、周辺情報の抽出や類似度の計算の処理(例えば、図2のステップS204及び図5のステップS503~S506)が速くなると共に、必要な情報だけを可変要素としてユーザに提示できる(図2のステップS205)。さらに、類似度に基づいた対応関係の復元の精度が良くなる(図5のステップS506)。

【0063】
2-1. 情報抽出装置の構成
本実施形態の情報抽出装置は、図1に示される実施形態1と同一の構成を持つ。

【0064】
2-2. 情報抽出装置の動作
図8に、抽出対象のWebページ(対象者のWebページ)のURLに対応する、1分経過前後のHTML文書を示す。この例では、現在時刻が「11:59」から「12:00」に変化している。実施形態1の場合、複数のWebページを比較した結果、現在時刻が異なれば、その現在時刻が可変要素として抽出される。しかし、現在時刻は、図8に示されるように、対象者が同一の場合でも、変化する要素である。本実施形態では、対象者が同一の場合でも変化する要素を可変要素から除外する。

【0065】
図9に、本発明の実施形態2における除外候補の抽出及び除外のフローチャートを示す。図9に示す除外候補の抽出及び除外の工程は、可変要素の抽出前(図2のステップS203の直前)に行っても良いし、可変要素の抽出後(図2のステップS203の直後)に行っても良い。なお、図9に示す除外候補の抽出及び除外の工程は、任意のタイミングで行っても良いが、可変要素の周辺情報を抽出する(図2のステップS204)前にすることが好ましい。本実施形態においては、可変要素を抽出した後且つその周辺情報を抽出する前(図2のステップS203とステップS204の間)に、図9に示すステップS901~S908を行う。

【0066】
本実施形態の情報抽出装置100の抽出部121は、「変化の頻度」を表すカウンタ値を「0」に設定し、図9に示す処理を開始する。抽出部121は、ステップS202で対象者のページ構成情報(WebページのHTML文書)を取得した後、所定時間(例えば、1分)が経過したかどうかを判断する(ステップS901)。所定時間が経過していれば(ステップS901でYes)、抽出部121は、対象者のURLに対応するページ構成情報を、通信部150を介して、再度取得する(ステップS902)。抽出部121は、今回取得したページ構成情報と前回取得したページ構成情報とを比較する(ステップS903)。具体的には、今回取得したHTML文書と前回取得したHTML文書の差分を計算する。抽出部121は、比較した結果、変化した箇所があるかどうかを判断し(ステップS904)、変化した箇所があれば、その変化した箇所を除外候補として抽出する(ステップS905)。これにより、例えば、図8に示される現在時刻の「11:59」及び/又は「12:00」が抽出される。また、ステップS905において、抽出部121は、「変化の頻度」を表すカウンタ値を「+1」する。

【0067】
抽出部121は、対象者のページ構成情報の比較(ステップS903)を所定回数(例えば、10回)行ったかどうかを判断する(ステップS906)。所定回数行っていなければ(ステップS906でNo)、ステップS901に戻り、対象者のページ構成情報の比較の処理を繰り返す。所定回数の比較が完了すれば(ステップS906でYes)、抽出部121は、除外候補として抽出した要素の変化の頻度を表すカウンタ値が所定数(例えば、9回)以上かどうかを判断する(S907)。変化の頻度を表すカウンタ値が所定数以上であれば(ステップS907でYes)、抽出部121は、除外候補が可変要素から除外したい除外要素であると判断して、その除外候補を可変要素から除外する(ステップS908)。変化の頻度を表すカウンタ値が所定数以上でなければ(ステップS907でNo)、除外候補を可変要素から除外しない。このような処理により、例えば、1分経過する毎に対象者のページ構成情報の変化の有無を検出し、10回中9回以上変化した箇所があれば、その変化した箇所(現在時刻)は対象者に依存した値ではない(時間に依存した値である)と判断して、可変要素から除外する。

【0068】
2-3. まとめ
本実施形態によれば、複数回取得した対象者のページ構成情報を比較して、変化した箇所(本実施形態において、現在時刻)を可変要素から除外することにより、対象者に紐づく情報(本実施形態において、55kg、54kg、171cm、坂本)のみを可変要素として抽出することができる。

【0069】
類似度に基づいて対応関係を復元する際に(図5のステップS506)、候補が多ければ多いほど対応関係を誤って復元する可能性が生じる。例えば、「体重」、「身長」、「気温」が可変要素としてある場合、最初に取得した初期ページの「体重」の数値と、新たに取得した現時点のページの「気温」の数値に、対応関係があると誤って判断してしまう可能性があり、その場合は現時点の体重の情報を追跡することができなくなる。類似度の計算が上手く行えない(例えば、可変要素の周囲の文言が少ない)ケースでは、可変要素の種類の数が多いと、対応関係の復元の失敗に繋がるおそれが生じる。よって、可変要素から、不要な除外要素を事前に除外することで、対応関係の復元の精度が高まる。

【0070】
2-4. 変形例
なお、ステップS903では、今回取得したページ構成情報を前回取得したページ構成情報と比較(例えば、12:00と11:59に取得したHTML文書を比較、12:01と12:00に取得したHTML文書とを比較)したが、最初に取得したページ構成情報(例えば、11:59に取得したHTML文書)を新たに取得したページ構成情報(例えば、12:00、12:01、12:02、12:03・・・に取得したHTML文書)と比較しても良い。

【0071】
また、本実施形態においては、除外要素を抽出するために変化させるコンテキスト(すなわち、ステップS901で使用する判定基準)は、Webページの取得時間であったが、除外要素を抽出するために変化させるコンテキストは、任意に設定可能である。例えば、抽出部121が設定しても良いし、ユーザが入力部110を介して設定しても良い。可変要素として抽出したい情報が何のコンテキストに基づいているかを考慮することにより、そのコンテキストが変わった時のみ変化する情報を可変要素として抽出することができる。例えば、天気やアクセス元の地域などを、除外要素を抽出するために変化させるコンテキストとして設定しても良い。これにより、例えば、現在時刻だけでなく、広告バナーなどの個人に紐づかない情報を、可変要素から除外することができる。

【0072】
また、本実施形態では、ステップS901の所定時間を1分、ステップS906の所定回数を10回、ステップS907の所定数を9回として、1分経過毎に対象者のページ構成情報を比較して、10回中9回以上変化した場合に、除外候補を可変要素から除外したが、ステップS901の所定時間(判定基準)、ステップS906の所定回数、ステップS907の所定数は任意に設定可能である。例えば、抽出部121が設定しても良いし、ユーザが入力部110を介して設定しても良い。また、可変要素として抽出したい情報に応じて、及び/又は除外要素を抽出するために変化させるコンテキストに応じて、ステップS901の所定時間(判定基準)、ステップS906の所定回数、ステップS907の所定数を設定しても良い。

【0073】
例えば、個人の体重、身長、及び名前は1分毎に変化する可能性は少ないため、1分経過する毎に対象者のページ構成情報の変化の有無を検出して、3回中3回変化した箇所を除外要素(現在時刻)としても良い。また、例えば、除外要素(広告バナー)を抽出するために変化させるコンテキストが「アクセス元の地域」である場合、アクセス元の地域が変わる毎に対象者のページ構成情報の変化の有無を検出し、5回中5回変化した箇所を除外要素としても良い。なお、誤判定を防ぐためには、複数回、比較することが好ましく、比較回数が多いほど誤判定を防ぐことができる。

【0074】
可変要素から除外要素を除外するその他の例について、さらに説明する。SNSサービス(Facebook、Twitterなど)において、「通知件数」の情報を抽出して追跡するケースについて説明する。SNSサービスでは、他のユーザが書き込みなどを行うと、対象者(自分自身)のページの内容も変化するため、大量の可変要素が存在することになる。そのため、抽出対象となる可変要素を絞り込むことが重要になる。この場合、他のユーザが書き込みする前後で、対象者のWebページを取得して、取得したページ間の差分を比較することによって、除外要素(抽出対象として不要な可変要素)を発見する。具体的には、抽出手法用に、機械が操作するアカウントを用意し、機械アカウントと抽出を行いたいユーザを、情報を共有できるフレンド状態にする。その後、機械アカウントが書き込みを行う前に、一度ページを保存し、さらに、機械アカウントが書き込みを行った直後に、もう一度ページを保存し直す。機械アカウントが書き込みを行った前後のページ間で差分を計算することにより、除外要素(抽出対象として不要な可変要素)を除去する。なお、機械アカウントが書き込み中に、除外したくない要素である「通知件数」が増えてしまう場合もあるため、「通知件数」を誤って除外するのを防ぐために、試行回数を十分多くして、必要な変化件数を高めにすることが好ましい。例えば、「変化件数/試行回数(アクセス頻度)=19/20」とし、20回中19回変化した箇所を除外する。

【0075】
次に、「今日の天気」の情報を除外したいケースについて説明する。例えば、今日の天気の情報を除外するためには、天気情報が変化するように1日ごとにアクセスすることが考えられる。一方、「毎日のランニング距離」と「今日の天気」が、同一ページに掲載されている場合、1日ごとにアクセスをすると、ランニング距離も変化してしまうため、「ランニング距離」と「今日の天気」の両方が除外要素となってしまう。そのため、1日ごとのアクセスでは、「今日の天気」の情報のみを除外することができない。このような場合、「今日の天気」を除外するために、例えば、利用者の位置情報を変更して、東京の天気と、大阪の天気のように、天気の情報のみが変化するようにして、同一ページに複数回アクセスをする。このように、アクセスの頻度や変化件数は、抽出する情報や除外する情報に応じて設定すると良い。欲しい情報(可変要素)が変化しないという条件を満たし、且つ、不要な情報(除外要素)が変化するという条件を満たすような頻度や回数を設定する。これにより、より精度良く、不要な情報のみを除外要素として抽出し除外できる。

【0076】
なお、実施形態2の除外要素の抽出(図9)を実施する代わりに、実施形態1の可変要素の抽出(図2のステップS203及び図5のステップS502)において、可変要素を抽出する範囲を制限しても良い。例えば、可変要素の抽出をHTML文書のBODYタグの中身の部分だけから行うようにしても良い。また、Webページの上部にあるメニューバーのみから可変要素を抽出するようにしても良い。このように、除外要素を可変要素から除外する代わりに、可変要素の抽出箇所を絞り込んでも良い。抽出箇所を絞り込むことで、不要な情報を可変要素として抽出してしまうことを防ぐことができる。また、可変要素の抽出範囲の制限を、実施形態2の除外要素の抽出(図9)の実施と共に行っても良い。
【産業上の利用可能性】
【0077】
本発明の情報抽出装置は、構造化された文書の仕様変更の有無にかかわらず、特定情報を抽出し続けることができるため、定期的に特定情報を抽出して抽出した特定情報を利用するようなサービスに有用である。
【符号の説明】
【0078】
100 情報抽出装置
110 入力部
120 制御部
121 抽出部
122 保存部
123 追跡部
130 表示部
140 メモリ
141 データベース(DB)
150 通信部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8