Top > Search of Japanese Patents > (In Japanese)情報抽出装置、情報抽出方法、及び情報抽出プログラム

(In Japanese)情報抽出装置、情報抽出方法、及び情報抽出プログラム

Patent code P170014680
File No. (S2015-0247-N0)
Posted date Nov 21, 2017
Application number P2016-564846
Patent number P6562276
Date of filing Dec 14, 2015
Date of registration Aug 2, 2019
International application number JP2015084974
International publication number WO2016098739
Date of international filing Dec 14, 2015
Date of international publication Jun 23, 2016
Priority data
  • P2014-253058 (Dec 15, 2014) JP
Inventor
  • (In Japanese)坂本 一憲
  • (In Japanese)本位田 真一
Applicant
  • (In Japanese)大学共同利用機関法人情報・システム研究機構
Title (In Japanese)情報抽出装置、情報抽出方法、及び情報抽出プログラム
Abstract (In Japanese)構造化された文書の仕様が変更した場合であっても、仕様変更前に抽出した特定情報を仕様変更後も容易且つ確実に抽出することが可能な情報抽出装置を提供する。情報抽出装置(100)は、構造化された複数の文書間で異なる部分を可変要素として抽出すると共に、各可変要素から所定範囲内にある要素を周辺情報として抽出する制御部(120)と、可変要素のうち少なくとも1つを抽出対象とし、少なくとも抽出対象について可変要素と周辺情報を格納する記憶部(140)と、を有し、制御部は、構造化された複数の文書から可変要素と周辺情報を再抽出し、再抽出した可変要素及び周辺情報と記憶部に格納されている可変要素及び周辺情報とに基づいて、再抽出前後の可変要素及び周辺情報の類似度を計算し、計算した類似度に基づいて、抽出対象に対応する可変要素を再抽出後の可変要素の中から特定する。
Outline of related art and contending technology (In Japanese)

従来の情報抽出装置(特許文献1参照)は、同一構造を持つWebページ間の差分を検出し、差分が検出された場所(タグ)を差分領域として特定し、その差分領域に記載されている情報を差分データとして抽出し、差分領域と差分データとを紐付けして特定情報として記憶している。例えば、「郵便番号」のタグと、実際の郵便番号(例えば、100-1000)とを対応付けて記憶する。この情報抽出装置によれば、例えば、AさんとBさんの英語学習記録のWebページの差分を計算することにより、ユーザごとに内容の異なる箇所(ユーザの名前、単語学習時間、文法学習時間など)を個人情報と捉えて抽出することができる。

また、別の情報抽出装置(特許文献2参照)は、複数のWebページのツリー構造の各々に共通する部分からデータを抽出する抽出ルールを自動で作成すると共に、その抽出ルールが適用されるWebページのURLを特定する特定ルールを自動で作成している。この情報抽出装置は、作成したWebページのURLを特定するための特定ルールとWebページからデータを抽出するための抽出ルールとを対応付けて記憶している。抽出対象となるWebページからデータ(特定情報)を抽出する際、情報抽出装置は、抽出対象となるWebページのURLが特定される特定ルールを選択し、選択された特定ルールに対応付けられている抽出ルールを選択し、選択された抽出ルールに基づいて抽出対象のWebページからデータ(特定情報)を抽出している。

さらに別の情報抽出装置(特許文献3参照)は、複数の個人領域が混在する単一のWebページ(掲示板など)から、個人領域に該当する箇所を特定して抽出し、各個人領域に対応付いている情報を特定する機能を実現している。例えば、掲示板のページにおいて、ユーザが書き込んだ箇所を特定し、ユーザごとに書き込み内容を抽出する。

さらに別の情報抽出装置(非特許文献1参照)は、Webアプリケーションに対する機能テストにおいて、仕様変更があった際に、抽出対象となる特定要素の抽出プログラムを修正しなくても、「contextual clues」と呼ばれる周囲の情報を参考にして特定の要素を抽出するルールの記述に関する手法を実現している。例えば、英語学習記録のWebページから単語学習時間と文法学習時間を抽出する際に、「単語学習時間は“単語”という文言付近に存在」及び「文法学習時間は“文法”という文言付近に存在」というルールを用いることにより、特定の情報を継続的且つロバストに抽出している。

Field of industrial application (In Japanese)

本発明は、構造化された文書から特定情報を抽出する情報抽出装置、情報抽出方法、及び情報抽出プログラムに関する。

Scope of claims (In Japanese)
【請求項1】
 
構造化された複数の文書を取得し、取得した複数の文書間で異なる部分を可変要素として抽出すると共に、各可変要素から所定範囲内にある要素を周辺情報として抽出する、制御部と、
前記可変要素のうち少なくとも1つを抽出対象とし、少なくとも前記抽出対象について前記可変要素と前記周辺情報を格納する記憶部と、
を有し、
前記制御部は、前記構造化された複数の文書を再度取得して、再度取得した複数の文書間で異なる部分を可変要素として再抽出すると共に、再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出し、再抽出した前記可変要素及び前記周辺情報と前記記憶部に格納されている前記可変要素及び前記周辺情報とに基づいて、再抽出前後の前記可変要素及び前記周辺情報の類似度を計算し、計算した前記類似度に基づいて、前記抽出対象に対応する前記可変要素を再抽出後の前記可変要素の中から特定する、
情報抽出装置。

【請求項2】
 
再抽出後の前記可変要素の中から、前記抽出対象の可変要素に対する類似度が最も高い可変要素を特定する、請求項1に記載の情報抽出装置。

【請求項3】
 
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素の類似度を計算し、且つ再抽出した前記周辺情報と前記記憶部に格納されている前記周辺情報の類似度とを計算し、前記可変要素同士の類似度と前記周辺情報同士の類似度とに基づいて、前記抽出対象に対応する可変要素を再抽出後の前記可変要素の中から特定する、請求項1に記載の情報抽出装置。

【請求項4】
 
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素とにそれぞれ含まれる数字部分と文字部分を、前記数字部分と前記文字部分に分割し、前記数字部分同士の類似度と前記文字部分同士の類似度とに基づいて、前記可変要素の類似度を決定する、請求項1に記載の情報抽出装置。

【請求項5】
 
前記構造化された複数の文書の差分を計算することにより、前記可変要素を抽出する、請求項1に記載の情報抽出装置。

【請求項6】
 
抽出された前記可変要素を表示する表示部と、
表示された前記可変要素の中からユーザにより選択された前記抽出対象を入力する入力部と、
をさらに有する、請求項1に記載の情報抽出装置。

【請求項7】
 
対象とする文書を複数回取得し、複数回取得した文書間で所定回数異なった部分を除外要素として、前記可変要素から除外する、請求項1に記載の情報抽出装置。

【請求項8】
 
構造化された複数の文書を取得するステップと、
取得した複数の文書間で異なる部分を可変要素として抽出するステップと、
各可変要素から所定範囲内にある要素を周辺情報として抽出するステップと、
前記可変要素のうち少なくとも1つを抽出対象とし、少なくとも前記抽出対象について前記可変要素と前記周辺情報を記憶部に格納するステップと、
前記構造化された複数の文書を再度取得するステップと、
再度取得した複数の文書間で異なる部分を可変要素として再抽出するステップと、
再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出するステップと、
再抽出した前記可変要素及び前記周辺情報と前記記憶部に格納されている前記可変要素及び前記周辺情報とに基づいて、再抽出前後の前記可変要素及び前記周辺情報の類似度を計算するステップと、
計算した前記類似度に基づいて、前記抽出対象に対応する可変要素を再抽出後の前記可変要素の中から特定するステップと、
を含む、情報抽出方法。

【請求項9】
 
再抽出後の前記可変要素の中から、前記抽出対象の可変要素に対する類似度が最も高い可変要素を特定する、請求項8に記載の情報抽出方法。

【請求項10】
 
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素の類似度を計算し、且つ再抽出した前記周辺情報と前記記憶部に格納されている前記周辺情報の類似度とを計算し、前記可変要素同士の類似度と前記周辺情報同士の類似度とに基づいて、前記抽出対象に対応する可変要素を再抽出後の可変要素の中から特定する、請求項8に記載の情報抽出方法。

【請求項11】
 
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素にそれぞれ含まれる数字部分と文字部分を、前記数字部分と前記文字部分に分割し、前記数字部分同士の類似度と前記文字部分同士の類似度とに基づいて、前記可変要素の類似度を決定する、請求項8に記載の情報抽出方法。

【請求項12】
 
前記構造化された複数の文書の差分を計算することにより、前記可変要素を抽出する、請求項8に記載の情報抽出方法。

【請求項13】
 
抽出された前記可変要素を表示するステップと、
表示された前記可変要素の中からユーザにより選択された前記抽出対象を入力するステップと、
をさらに含む、請求項8に記載の情報抽出方法。

【請求項14】
 
対象とする文書を複数回取得し、複数回取得した文書間で所定回数異なった部分を除外要素として、前記可変要素から除外する、請求項8に記載の情報抽出方法。

【請求項15】
 
構造化された複数の文書を取得するステップと、
取得した複数の文書間で異なる部分を可変要素として抽出するステップと、
各可変要素から所定範囲内にある要素を周辺情報として抽出するステップと、
前記可変要素のうち少なくとも1つを抽出対象とし、少なくとも前記抽出対象について前記可変要素と前記周辺情報を記憶部に格納するステップと、
前記構造化された複数の文書を再度取得するステップと、
再度取得した複数の文書間で異なる部分を可変要素として再抽出するステップと、
再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出するステップと、
再抽出した前記可変要素及び前記周辺情報と前記記憶部に格納されている前記可変要素及び前記周辺情報とに基づいて、再抽出前後の可変要素及び周辺情報の類似度を計算するステップと、
計算した前記類似度に基づいて、前記抽出対象に対応する可変要素を再抽出後の前記可変要素の中から特定するステップと、
をコンピュータに実行させるための情報抽出プログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2016564846thum.jpg
State of application right Registered
(In Japanese)情報・システム研究機構 国立情報学研究所(NII)は、我が国唯一の情報系に特化した研究所です。NIIでは、外部資金による研究成果の社会還元を中心に、技術移転活動に積極的に取り組んでいます。上記の発明にライセンス対象や共同開発対象として関心をお持ちいただいた方は、国立情報学研究所 社会連携推進室までお気軽にお問合せください。


PAGE TOP

close
close
close
close
close
close
close