TOP > クイック検索 > 国内特許検索 > 情報抽出装置、情報抽出方法、及び情報抽出プログラム

情報抽出装置、情報抽出方法、及び情報抽出プログラム UPDATE

国内特許コード P170014680
整理番号 (S2015-0247-N0)
掲載日 2017年11月21日
出願番号 特願2016-564846
出願日 平成27年12月14日(2015.12.14)
国際出願番号 JP2015084974
国際公開番号 WO2016098739
国際出願日 平成27年12月14日(2015.12.14)
国際公開日 平成28年6月23日(2016.6.23)
優先権データ
  • 特願2014-253058 (2014.12.15) JP
発明者
  • 坂本 一憲
  • 本位田 真一
出願人
  • 大学共同利用機関法人情報・システム研究機構
発明の名称 情報抽出装置、情報抽出方法、及び情報抽出プログラム UPDATE
発明の概要 構造化された文書の仕様が変更した場合であっても、仕様変更前に抽出した特定情報を仕様変更後も容易且つ確実に抽出することが可能な情報抽出装置を提供する。情報抽出装置(100)は、構造化された複数の文書間で異なる部分を可変要素として抽出すると共に、各可変要素から所定範囲内にある要素を周辺情報として抽出する制御部(120)と、可変要素のうち少なくとも1つを抽出対象とし、少なくとも抽出対象について可変要素と周辺情報を格納する記憶部(140)と、を有し、制御部は、構造化された複数の文書から可変要素と周辺情報を再抽出し、再抽出した可変要素及び周辺情報と記憶部に格納されている可変要素及び周辺情報とに基づいて、再抽出前後の可変要素及び周辺情報の類似度を計算し、計算した類似度に基づいて、抽出対象に対応する可変要素を再抽出後の可変要素の中から特定する。
従来技術、競合技術の概要


従来の情報抽出装置(特許文献1参照)は、同一構造を持つWebページ間の差分を検出し、差分が検出された場所(タグ)を差分領域として特定し、その差分領域に記載されている情報を差分データとして抽出し、差分領域と差分データとを紐付けして特定情報として記憶している。例えば、「郵便番号」のタグと、実際の郵便番号(例えば、100-1000)とを対応付けて記憶する。この情報抽出装置によれば、例えば、AさんとBさんの英語学習記録のWebページの差分を計算することにより、ユーザごとに内容の異なる箇所(ユーザの名前、単語学習時間、文法学習時間など)を個人情報と捉えて抽出することができる。



また、別の情報抽出装置(特許文献2参照)は、複数のWebページのツリー構造の各々に共通する部分からデータを抽出する抽出ルールを自動で作成すると共に、その抽出ルールが適用されるWebページのURLを特定する特定ルールを自動で作成している。この情報抽出装置は、作成したWebページのURLを特定するための特定ルールとWebページからデータを抽出するための抽出ルールとを対応付けて記憶している。抽出対象となるWebページからデータ(特定情報)を抽出する際、情報抽出装置は、抽出対象となるWebページのURLが特定される特定ルールを選択し、選択された特定ルールに対応付けられている抽出ルールを選択し、選択された抽出ルールに基づいて抽出対象のWebページからデータ(特定情報)を抽出している。



さらに別の情報抽出装置(特許文献3参照)は、複数の個人領域が混在する単一のWebページ(掲示板など)から、個人領域に該当する箇所を特定して抽出し、各個人領域に対応付いている情報を特定する機能を実現している。例えば、掲示板のページにおいて、ユーザが書き込んだ箇所を特定し、ユーザごとに書き込み内容を抽出する。



さらに別の情報抽出装置(非特許文献1参照)は、Webアプリケーションに対する機能テストにおいて、仕様変更があった際に、抽出対象となる特定要素の抽出プログラムを修正しなくても、「contextual clues」と呼ばれる周囲の情報を参考にして特定の要素を抽出するルールの記述に関する手法を実現している。例えば、英語学習記録のWebページから単語学習時間と文法学習時間を抽出する際に、「単語学習時間は“単語”という文言付近に存在」及び「文法学習時間は“文法”という文言付近に存在」というルールを用いることにより、特定の情報を継続的且つロバストに抽出している。

産業上の利用分野


本発明は、構造化された文書から特定情報を抽出する情報抽出装置、情報抽出方法、及び情報抽出プログラムに関する。

特許請求の範囲 【請求項1】
構造化された複数の文書を取得し、取得した複数の文書間で異なる部分を可変要素として抽出すると共に、各可変要素から所定範囲内にある要素を周辺情報として抽出する、制御部と、
前記可変要素のうち少なくとも1つを抽出対象とし、少なくとも前記抽出対象について前記可変要素と前記周辺情報を格納する記憶部と、
を有し、
前記制御部は、前記構造化された複数の文書を再度取得して、再度取得した複数の文書間で異なる部分を可変要素として再抽出すると共に、再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出し、再抽出した前記可変要素及び前記周辺情報と前記記憶部に格納されている前記可変要素及び前記周辺情報とに基づいて、再抽出前後の前記可変要素及び前記周辺情報の類似度を計算し、計算した前記類似度に基づいて、前記抽出対象に対応する前記可変要素を再抽出後の前記可変要素の中から特定する、
情報抽出装置。

【請求項2】
再抽出後の前記可変要素の中から、前記抽出対象の可変要素に対する類似度が最も高い可変要素を特定する、請求項1に記載の情報抽出装置。

【請求項3】
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素の類似度を計算し、且つ再抽出した前記周辺情報と前記記憶部に格納されている前記周辺情報の類似度とを計算し、前記可変要素同士の類似度と前記周辺情報同士の類似度とに基づいて、前記抽出対象に対応する可変要素を再抽出後の前記可変要素の中から特定する、請求項1に記載の情報抽出装置。

【請求項4】
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素とにそれぞれ含まれる数字部分と文字部分を、前記数字部分と前記文字部分に分割し、前記数字部分同士の類似度と前記文字部分同士の類似度とに基づいて、前記可変要素の類似度を決定する、請求項1に記載の情報抽出装置。

【請求項5】
前記構造化された複数の文書の差分を計算することにより、前記可変要素を抽出する、請求項1に記載の情報抽出装置。

【請求項6】
抽出された前記可変要素を表示する表示部と、
表示された前記可変要素の中からユーザにより選択された前記抽出対象を入力する入力部と、
をさらに有する、請求項1に記載の情報抽出装置。

【請求項7】
対象とする文書を複数回取得し、複数回取得した文書間で所定回数異なった部分を除外要素として、前記可変要素から除外する、請求項1に記載の情報抽出装置。

【請求項8】
構造化された複数の文書を取得するステップと、
取得した複数の文書間で異なる部分を可変要素として抽出するステップと、
各可変要素から所定範囲内にある要素を周辺情報として抽出するステップと、
前記可変要素のうち少なくとも1つを抽出対象とし、少なくとも前記抽出対象について前記可変要素と前記周辺情報を記憶部に格納するステップと、
前記構造化された複数の文書を再度取得するステップと、
再度取得した複数の文書間で異なる部分を可変要素として再抽出するステップと、
再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出するステップと、
再抽出した前記可変要素及び前記周辺情報と前記記憶部に格納されている前記可変要素及び前記周辺情報とに基づいて、再抽出前後の前記可変要素及び前記周辺情報の類似度を計算するステップと、
計算した前記類似度に基づいて、前記抽出対象に対応する可変要素を再抽出後の前記可変要素の中から特定するステップと、
を含む、情報抽出方法。

【請求項9】
再抽出後の前記可変要素の中から、前記抽出対象の可変要素に対する類似度が最も高い可変要素を特定する、請求項8に記載の情報抽出方法。

【請求項10】
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素の類似度を計算し、且つ再抽出した前記周辺情報と前記記憶部に格納されている前記周辺情報の類似度とを計算し、前記可変要素同士の類似度と前記周辺情報同士の類似度とに基づいて、前記抽出対象に対応する可変要素を再抽出後の可変要素の中から特定する、請求項8に記載の情報抽出方法。

【請求項11】
再抽出した前記可変要素と前記記憶部に格納されている前記可変要素にそれぞれ含まれる数字部分と文字部分を、前記数字部分と前記文字部分に分割し、前記数字部分同士の類似度と前記文字部分同士の類似度とに基づいて、前記可変要素の類似度を決定する、請求項8に記載の情報抽出方法。

【請求項12】
前記構造化された複数の文書の差分を計算することにより、前記可変要素を抽出する、請求項8に記載の情報抽出方法。

【請求項13】
抽出された前記可変要素を表示するステップと、
表示された前記可変要素の中からユーザにより選択された前記抽出対象を入力するステップと、
をさらに含む、請求項8に記載の情報抽出方法。

【請求項14】
対象とする文書を複数回取得し、複数回取得した文書間で所定回数異なった部分を除外要素として、前記可変要素から除外する、請求項8に記載の情報抽出方法。

【請求項15】
構造化された複数の文書を取得するステップと、
取得した複数の文書間で異なる部分を可変要素として抽出するステップと、
各可変要素から所定範囲内にある要素を周辺情報として抽出するステップと、
前記可変要素のうち少なくとも1つを抽出対象とし、少なくとも前記抽出対象について前記可変要素と前記周辺情報を記憶部に格納するステップと、
前記構造化された複数の文書を再度取得するステップと、
再度取得した複数の文書間で異なる部分を可変要素として再抽出するステップと、
再抽出した各可変要素から所定範囲内にある要素を周辺情報として再抽出するステップと、
再抽出した前記可変要素及び前記周辺情報と前記記憶部に格納されている前記可変要素及び前記周辺情報とに基づいて、再抽出前後の可変要素及び周辺情報の類似度を計算するステップと、
計算した前記類似度に基づいて、前記抽出対象に対応する可変要素を再抽出後の前記可変要素の中から特定するステップと、
をコンピュータに実行させるための情報抽出プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2016564846thum.jpg
出願権利状態 公開
※ 情報・システム研究機構 国立情報学研究所(NII)は、我が国唯一の情報系に特化した研究所です。NIIでは、外部資金による研究成果の社会還元を中心に、技術移転活動に積極的に取り組んでいます。上記の発明にライセンス対象や共同開発対象として関心をお持ちいただいた方は、国立情報学研究所 社会連携推進室までお気軽にお問合せください。


PAGE TOP

close
close
close
close
close
close
close