Top > Search of Japanese Patents > SPECIFIC DATA EXTRACTION METHOD, EXTRACTION DEVICE AND PROGRAM

SPECIFIC DATA EXTRACTION METHOD, EXTRACTION DEVICE AND PROGRAM commons

Patent code P140010755
File No. 03-02
Posted date Jul 10, 2014
Application number P2003-055193
Publication number P2004-265169A
Patent number P3843320
Date of filing Mar 3, 2003
Date of publication of application Sep 24, 2004
Date of registration Aug 25, 2006
Inventor
  • (In Japanese)山本 英子
  • (In Japanese)井佐原 均
  • (In Japanese)内山 将夫
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title SPECIFIC DATA EXTRACTION METHOD, EXTRACTION DEVICE AND PROGRAM commons
Abstract PROBLEM TO BE SOLVED: To solve the problem that there are specific data which cannot be extracted from an existing term dictionary (for example, personal name and post, place and person, and the like).
SOLUTION: The specific data extraction method extracts, from document data, a combination of data having high relevance to each other as specific data. This method is characterized by comprising: the step S111 of extracting term data from multiple pieces of the document data; the step S119 of imparting a value indicating the degree of the correlation between the term data and the respective document data to each term data; the step of S121 of calculating, for each term data, the degree of the similarity in the case of combination of term data with other term data using the value indicating the degree of correlation between the term data and the respective document data; and the step S123 of extracting, as specific data, the combination of a predetermined number of pieces of the term data in the descending order of the degree of similarity or the combination of the term data having the degree of similarity exceeding a predetermined threshold value.
Outline of related art and contending technology (In Japanese)

近年、電子化された各種のデータの中から、あるデータをキーにしてそのデータに関連しているデータを抽出する技術が各種の装置に適用されている。このような装置として、例えば、文章データの中から関連性の高いデータの組み合わせ(以下、特定データという)を抽出して要約文を作成する要約文作成装置や、特定データの検索、収集、分析作業などを行う検索装置などがある。

これら従来の技術は、特定データを抽出する場合に、予め用意された既存の用語辞書に基づいて抽出していた(例えば、特許文献1参照)。

【特許文献1】

特開平2000-137729号公報 (段落0014~段落0022、図1、図2)

Field of industrial application (In Japanese)

この発明は、文書データの中から関連性の高い用語データの組み合わせを特定データとして抽出する技術に関する。特に、既存の用語辞書からでは抽出することができない用語データの組み合わせ(例えば、ある組織における人名と役職の関係のように、時間的な経過によって変化するデータの組み合わせや、ある事件における場所と人物、その他の関係のように、突発的に発生する用語データによって変化するデータの組み合わせなど)を特定データとして抽出する技術に関する。

Scope of claims (In Japanese)
【請求項1】
 
用語データ抽出手段と重み付け手段と特定データ抽出手段とを有する特定データの抽出装置を用いて、文書データの中から関連性の高い用語データの組み合わせを特定データとして抽出する特定データの抽出方法において、
前記用語データ抽出手段が、複数の文書データの中から各用語データを抽出する用語データ抽出工程と、
前記重み付け手段が、前記用語データ抽出工程で抽出された各用語データに対し、各文書データ中に出現する用語データの数に応じて、用語データ毎に、用語データと各文書データとの相関度を示す値を付与する相関度付与工程と、
前記特定データ抽出手段が、前記相関度付与工程で用語データ毎に付与された前記用語データと各文書データとの相関度を示す値を用いて、以下の式(4)と式(5)に基づいて、2つの多値ベクトルFgとTgを算出し、算出した2つの多値ベクトルFgとTgを用いて、以下の式(6)に基づいて、重み付き補完類似度を算出することにより、用語データ毎に、他の用語データと組み合わせた場合の重み付き補完類似度を算出する重み付き補完類似度算出工程と、
前記特定データ抽出手段が、前記重み付き補完類似度算出工程で算出した前記重み付き補完類似度が高い順に所定数の用語データの組み合わせを特定データとして抽出する、または、前記重み付き補完類似度算出工程で算出した前記重み付き補完類似度が所定の閾値を超える用語データの組み合わせを特定データとして抽出する特定データ抽出工程と、
を含むことを特徴とする特定データの抽出方法。
【数1】
 
(省略)
ただし、nは、特定データの抽出の対象である文書データの総数とする。また、iは、ベクトルの次元数とする。また、ag,bg,cg,dgは、文書データi中に出現する2つの用語データの数に応じて0~1の間で設定される、用語データと文書データとの相関度とする。

【請求項2】
 
前記特定データの抽出装置は、前記用語データ抽出手段と前記重み付け手段と前記特定データ抽出手段とID付与手段とを含む本処理部を有しており、
前記本処理部が、記用語データ抽出工程で、各用語データに固有のIDを付与するとともに、前記IDに前記各文書データとの相関度を示す値を関連付けることを特徴とする請求項1に記載の特定データの抽出方法。

【請求項3】
 
前記特定データの抽出装置は、さらに、前処理部を有しており、
前記前処理部が、
記用語データ抽出工程の前工程として、
複数の文書データを取得する文書データ取得工程と、
前記文書データ取得工程で取得された複数の文書データの中から特定データの抽出対象とならない領域のデータを除外する不要データ除外工程と、
前記不要データ除外工程で残された複数の文書データの各々を形態素解析して品詞毎に分類する品詞分類工程と、
実行することを特徴とする請求項1に記載の特定データの抽出方法。

【請求項4】
 
前記特定データ抽出手段は、前記特定データ抽出工程で、特定データとして抽出する数、または、前記重み付き補完類似度の閾値を変更することによって、特定データとして抽出する用語データの組み合わせの数を適宜変更できることを特徴とする請求項1に記載の特定データの抽出方法。

【請求項5】
 
前記用語データ抽出工程と、前記相関度付与工程と、前記重み付き補完類似度算出工程と、前記特定データ抽出工程とを、
2つの異なる言語によって作成された同じ内容の文書データを対象にして行い、言語毎に抽出された特定データを2つの言語間で比較することによって訳語の関係にある用語データの組み合わせを抽出することを特徴とする請求項1に記載の特定データの抽出方法。

【請求項6】
 
文書データの中から関連性の高いデータの組み合わせを特定データとして抽出する特定データの抽出装置において、
複数の文書データの中から各用語データを抽出する用語データ抽出手段と、
各文書データ中に出現する用語データの数をカウントするカウント手段と、
前記用語データ抽出手段によって抽出された各用語データに対し、各文書データ中に出現する用語データの数に応じて、用語データ毎に、用語データと各文書データとの相関度を示す値を付与する重み付け手段と、
前記重み付け手段によって用語データ毎に付与された前記用語データと各文書データとの相関度を示す値を用いて、以下の式(4)と式(5)に基づいて、2つの多値ベクトルFgとTgを算出し、算出した2つの多値ベクトルFgとTgを用いて、以下の式(6)に基づいて、重み付き補完類似度を算出することにより、用語データ毎に、他の用語データとの重み付き補完類似度を算出し、算出した前記重み付き補完類似度が高い順に所定数の用語データの組み合わせを特定データとして抽出する、または、算出した前記重み付き補完類似度が所定の閾値を超える用語データの組み合わせを特定データとして抽出する特定データ抽出手段と、
を有することを特徴とする特定データの抽出装置。
【数2】
 
(省略)
ただし、nは、特定データの抽出の対象である文書データの総数とする。また、iは、ベクトルの次元数とする。また、ag,bg,cg,dgは、文書データi中に出現する2つの用語データの数に応じて0~1の間で設定される、用語データと文書データとの相関度とする。

【請求項7】
 
前記特定データ抽出手段は、2つの異なる言語によって作成された同じ内容の文書データを対象にして特定データの抽出を行った場合に、言語毎に抽出された特定データを2つの言語間で比較することによって訳語の関係にある用語データの組み合わせを抽出す
とを特徴とする請求項6に記載の特定データの抽出装置。

【請求項8】
 
コンピュータを、
複数の文書データの中から各用語データを抽出する用語データ抽出手段と、
各文書データ中に出現する用語データの数をカウントするカウント手段と、
前記用語データ抽出手段によって抽出された各用語データに対し、各文書データ中に出現する用語データの数に応じて、用語データ毎に、用語データと各文書データとの相関度を示す値を付与する重み付け手段と、
前記重み付け手段によって用語データ毎に付与された前記用語データと各文書データとの相関度を示す値を用いて、以下の式(4)と式(5)に基づいて、2つの多値ベクトルFgとTgを算出し、算出した2つの多値ベクトルFgとTgを用いて、以下の式(6)に基づいて、重み付き補完類似度を算出することにより、用語データ毎に、他の用語データとの重み付き補完類似度を算出し、算出した前記重み付き補完類似度が高い順に所定数の用語データの組み合わせを特定データとして抽出する、または、算出した前記重み付き補完類似度が所定の閾値を超える用語データの組み合わせを特定データとして抽出する特定データ抽出手段として、
機能させるためのプログラム。
【数3】
 
(省略)
ただし、nは、特定データの抽出の対象である文書データの総数とする。また、iは、ベクトルの次元数とする。また、ag,bg,cg,dgは、文書データi中に出現する2つの用語データの数に応じて0~1の間で設定される、用語データと文書データとの相関度とする。

【請求項9】
 
前記特定データ抽出手段を、2つの異なる言語によって作成された同じ内容の文書データを対象にして特定データの抽出を行った場合に、言語毎に抽出された特定データを2つの言語間で比較することによって訳語の関係にある用語データの組み合わせを抽出する手段として、
機能させるための請求項8に記載のプログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2003055193thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close