TOP > 国内特許検索 > データ処理装置及びデータ処理方法

データ処理装置及びデータ処理方法 コモンズ

国内特許コード P140010589
整理番号 07-16
掲載日 2014年6月3日
出願番号 特願2007-286269
公開番号 特開2009-116456
登録番号 特許第5099498号
出願日 平成19年11月2日(2007.11.2)
公開日 平成21年5月28日(2009.5.28)
登録日 平成24年10月5日(2012.10.5)
発明者
  • 村田 真樹
  • 金丸 敏幸
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 データ処理装置及びデータ処理方法 コモンズ
発明の概要 【課題】対象データに関連する2つの関連データの前後を精度良く検出する技術を提供する。
【解決手段】所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置1を提供する。該装置には、ネットワーク上やローカルの記憶手段に格納されたコンテンツファイルから第1関連データ・第2関連データを抽出する関連データ抽出手段102、各関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出手段103、関連データ共起ファイルから、所定の関連データ間関係規則130を参照して、各関連データの前後を検出する関連データ間関係検出手段104、検出結果を出力する出力手段105を備える。
【選択図】図1
従来技術、競合技術の概要


企業や個人の連絡先を調べる際に、インターネットで検索したり、ローカルなハードディスクに蓄積されたデータベースを検索することは日常的に行われている。このようなデータは、一度蓄積されるとなかなか消去されることがなく、企業が移転をしても従前の住所が検索結果として出力されることが少なくない。



このような住所に関する情報の他、企業名の変更や、企業の人事情報や、個人の勤務先情報、製品の型番情報など、ある対象データに関連する関連データが更新された場合に、どちらが新しい関連データなのかを解決すべき場面は多い。



ところで、非特許文献1および2に示されるように、ウェブページなど文書データから企業の所在地住所を取り出す研究や、単一の文書から企業内の人事の情報を取り出す研究は従来から知られている。しかし、企業名、人名を入力として企業の住所の変化情報、人の所属の変化情報を、文書の日付を自動推定する技術や教師あり機械学習手法を含めた高度な自然言語処理技術を駆使してウェブの複数の文書を総合的に扱って取り出す先行技術はない。



【非特許文献1】
佐藤理史、ワールドワイドウェブを利用した住所探索、情報処理学会論文誌, Vol.42, No.1, pp.59-67, 2001年
【非特許文献2】
関根聡,テキストからの情報抽出―文書から特定の情報を抜き出す―,情報処理,Vol.40,No.4,pp.370-373,1999年

産業上の利用分野



本発明は、所定の対象データに関連する関連データ間の順序を検出するデータ処理装置と方法に関し、より詳しくは所定のルールや機械学習に基づいて生成される規則に従って、順序を検出する技術に関わる。

特許請求の範囲 【請求項1】
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置において、
ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、
ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出手段と、
該関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出手段と、
該検出結果を出力する出力手段と
を備えたことを特徴とするデータ処理装置。

【請求項2】
前記関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合する
請求項1に記載のデータ処理装置。

【請求項3】
前記関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出する
請求項1に記載のデータ処理装置。

【請求項4】
前記データ処理装置であって、
前記関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から前記対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出する
請求項1ないし3のいずれかに記載のデータ処理装置。

【請求項5】
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置において、
ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、
該第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出手段と、
該第1共起データ及び該第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出手段と、
該検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力手段と
を備えたことを特徴とするデータ処理装置。

【請求項6】
前記データ処理装置において、
ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出手段を備えた
請求項5に記載のデータ処理装置。

【請求項7】
前記共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合する
請求項6に記載のデータ処理装置。

【請求項8】
前記共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果であって、
前記共起データ間関係検出手段が、前記第1共起データ及び前記第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出する
請求項5又は6に記載のデータ処理装置。

【請求項9】
前記データ処理装置で処理する対象データが宛名であり、関連データが宛先である構成において、
前記第1関連データと前記第2関連データとの間で、その新旧関係を検出する
ことを特徴とする請求項1ないし8のいずれかにデータ処理装置。

【請求項10】
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、
関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、
関連データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出ステップ、
関連データ間関係検出手段が、該関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出ステップ、
出力手段が、該検出結果を出力する出力ステップ
を有することを特徴とするデータ処理方法。

【請求項11】
前記関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合する
請求項10に記載のデータ処理方法。

【請求項12】
前記関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出する
請求項10に記載のデータ処理方法。

【請求項13】
前記データ処理方法であって、
前記関連データ抽出ステップにおいて関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から前記対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出する
請求項10ないし12のいずれかに記載のデータ処理方法。

【請求項14】
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、
関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、
共起データ抽出手段が、該第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出ステップ、
共起データ間関係検出手段が、該第1共起データ及び該第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出ステップ、
出力手段が、該検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力ステップ
を有することを特徴とするデータ処理方法。

【請求項15】
前記データ処理方法において、前記共起データ抽出ステップの次に、
共起データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出ステップを有する
請求項14に記載のデータ処理方法。

【請求項16】
前記共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合する
請求項15に記載のデータ処理方法。

【請求項17】
前記共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果であって、
前記共起データ間関係検出手段が、前記第1共起データ及び前記第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出する
請求項14又は15に記載のデータ処理方法。

【請求項18】
前記データ処理方法が、対象データが宛名であり、関連データが宛先である構成において、
前記第1関連データと前記第2関連データとの間で、その新旧関係を検出する
ことを特徴とする請求項10ないし17のいずれかにデータ処理方法。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2007286269thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close