TOP > 国内特許検索 > 特定データの抽出方法、抽出装置、およびプログラム

特定データの抽出方法、抽出装置、およびプログラム コモンズ

国内特許コード P140010755
整理番号 03-02
掲載日 2014年7月10日
出願番号 特願2003-055193
公開番号 特開2004-265169
登録番号 特許第3843320号
出願日 平成15年3月3日(2003.3.3)
公開日 平成16年9月24日(2004.9.24)
登録日 平成18年8月25日(2006.8.25)
発明者
  • 山本 英子
  • 井佐原 均
  • 内山 将夫
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 特定データの抽出方法、抽出装置、およびプログラム コモンズ
発明の概要 【課題】既存の用語辞書からでは抽出することができない特定データ(例えば、人名と役職、場所と人物など)があった。
【解決手段】文書データの中から関連性の高いデータの組み合わせを特定データとして抽出する特定データの抽出方法において、複数の文書データの中から各用語データを抽出する工程S111と、各文書データ中に出現する用語データの数に応じて、用語データ毎に、用語データと各文書データとの相関度を示す値を付与する工程S119と、前記用語データと各文書データとの相関度を示す値を用いて、用語データ毎に、他の用語データと組み合わせた場合の類似度を算出する工程S121と、前記類似度が高い順に所定数の用語データの組み合わせを特定データとして、または、前記類似度が所定の閾値を超える用語データの組み合わせを特定データとして抽出する工程S123と、を含むことを特徴とする。
【選択図】 図4
従来技術、競合技術の概要



近年、電子化された各種のデータの中から、あるデータをキーにしてそのデータに関連しているデータを抽出する技術が各種の装置に適用されている。このような装置として、例えば、文章データの中から関連性の高いデータの組み合わせ(以下、特定データという)を抽出して要約文を作成する要約文作成装置や、特定データの検索、収集、分析作業などを行う検索装置などがある。





これら従来の技術は、特定データを抽出する場合に、予め用意された既存の用語辞書に基づいて抽出していた(例えば、特許文献1参照)。





【特許文献1】

特開平2000-137729号公報 (段落0014~段落0022、図1、図2)

産業上の利用分野



この発明は、文書データの中から関連性の高い用語データの組み合わせを特定データとして抽出する技術に関する。特に、既存の用語辞書からでは抽出することができない用語データの組み合わせ(例えば、ある組織における人名と役職の関係のように、時間的な経過によって変化するデータの組み合わせや、ある事件における場所と人物、その他の関係のように、突発的に発生する用語データによって変化するデータの組み合わせなど)を特定データとして抽出する技術に関する。

特許請求の範囲 【請求項1】
用語データ抽出手段と重み付け手段と特定データ抽出手段とを有する特定データの抽出装置を用いて、文書データの中から関連性の高い用語データの組み合わせを特定データとして抽出する特定データの抽出方法において、
前記用語データ抽出手段が、複数の文書データの中から各用語データを抽出する用語データ抽出工程と、
前記重み付け手段が、前記用語データ抽出工程で抽出された各用語データに対し、各文書データ中に出現する用語データの数に応じて、用語データ毎に、用語データと各文書データとの相関度を示す値を付与する相関度付与工程と、
前記特定データ抽出手段が、前記相関度付与工程で用語データ毎に付与された前記用語データと各文書データとの相関度を示す値を用いて、以下の式(4)と式(5)に基づいて、2つの多値ベクトルFとTを算出し、算出した2つの多値ベクトルFとTを用いて、以下の式(6)に基づいて、重み付き補完類似度を算出することにより、用語データ毎に、他の用語データと組み合わせた場合の重み付き補完類似度を算出する重み付き補完類似度算出工程と、
前記特定データ抽出手段が、前記重み付き補完類似度算出工程で算出した前記重み付き補完類似度が高い順に所定数の用語データの組み合わせを特定データとして抽出する、または、前記重み付き補完類似度算出工程で算出した前記重み付き補完類似度が所定の閾値を超える用語データの組み合わせを特定データとして抽出する特定データ抽出工程と、
を含むことを特徴とする特定データの抽出方法。
【数1】


ただし、nは、特定データの抽出の対象である文書データの総数とする。また、iは、ベクトルの次元数とする。また、a,b,c,dは、文書データi中に出現する2つの用語データの数に応じて0~1の間で設定される、用語データと文書データとの相関度とする。

【請求項2】
前記特定データの抽出装置は、前記用語データ抽出手段と前記重み付け手段と前記特定データ抽出手段とID付与手段とを含む本処理部を有しており、
前記本処理部が、記用語データ抽出工程で、各用語データに固有のIDを付与するとともに、前記IDに前記各文書データとの相関度を示す値を関連付けることを特徴とする請求項1に記載の特定データの抽出方法。

【請求項3】
前記特定データの抽出装置は、さらに、前処理部を有しており、
前記前処理部が、
記用語データ抽出工程の前工程として、
複数の文書データを取得する文書データ取得工程と、
前記文書データ取得工程で取得された複数の文書データの中から特定データの抽出対象とならない領域のデータを除外する不要データ除外工程と、
前記不要データ除外工程で残された複数の文書データの各々を形態素解析して品詞毎に分類する品詞分類工程と、
実行することを特徴とする請求項1に記載の特定データの抽出方法。

【請求項4】
前記特定データ抽出手段は、前記特定データ抽出工程で、特定データとして抽出する数、または、前記重み付き補完類似度の閾値を変更することによって、特定データとして抽出する用語データの組み合わせの数を適宜変更できることを特徴とする請求項1に記載の特定データの抽出方法。

【請求項5】
前記用語データ抽出工程と、前記相関度付与工程と、前記重み付き補完類似度算出工程と、前記特定データ抽出工程とを、
2つの異なる言語によって作成された同じ内容の文書データを対象にして行い、言語毎に抽出された特定データを2つの言語間で比較することによって訳語の関係にある用語データの組み合わせを抽出することを特徴とする請求項1に記載の特定データの抽出方法。

【請求項6】
文書データの中から関連性の高いデータの組み合わせを特定データとして抽出する特定データの抽出装置において、
複数の文書データの中から各用語データを抽出する用語データ抽出手段と、
各文書データ中に出現する用語データの数をカウントするカウント手段と、
前記用語データ抽出手段によって抽出された各用語データに対し、各文書データ中に出現する用語データの数に応じて、用語データ毎に、用語データと各文書データとの相関度を示す値を付与する重み付け手段と、
前記重み付け手段によって用語データ毎に付与された前記用語データと各文書データとの相関度を示す値を用いて、以下の式(4)と式(5)に基づいて、2つの多値ベクトルFとTを算出し、算出した2つの多値ベクトルFとTを用いて、以下の式(6)に基づいて、重み付き補完類似度を算出することにより、用語データ毎に、他の用語データとの重み付き補完類似度を算出し、算出した前記重み付き補完類似度が高い順に所定数の用語データの組み合わせを特定データとして抽出する、または、算出した前記重み付き補完類似度が所定の閾値を超える用語データの組み合わせを特定データとして抽出する特定データ抽出手段と、
を有することを特徴とする特定データの抽出装置。
【数2】


ただし、nは、特定データの抽出の対象である文書データの総数とする。また、iは、ベクトルの次元数とする。また、a,b,c,dは、文書データi中に出現する2つの用語データの数に応じて0~1の間で設定される、用語データと文書データとの相関度とする。

【請求項7】
前記特定データ抽出手段は、2つの異なる言語によって作成された同じ内容の文書データを対象にして特定データの抽出を行った場合に、言語毎に抽出された特定データを2つの言語間で比較することによって訳語の関係にある用語データの組み合わせを抽出す
とを特徴とする請求項6に記載の特定データの抽出装置。

【請求項8】
コンピュータを、
複数の文書データの中から各用語データを抽出する用語データ抽出手段と、
各文書データ中に出現する用語データの数をカウントするカウント手段と、
前記用語データ抽出手段によって抽出された各用語データに対し、各文書データ中に出現する用語データの数に応じて、用語データ毎に、用語データと各文書データとの相関度を示す値を付与する重み付け手段と、
前記重み付け手段によって用語データ毎に付与された前記用語データと各文書データとの相関度を示す値を用いて、以下の式(4)と式(5)に基づいて、2つの多値ベクトルFとTを算出し、算出した2つの多値ベクトルFとTを用いて、以下の式(6)に基づいて、重み付き補完類似度を算出することにより、用語データ毎に、他の用語データとの重み付き補完類似度を算出し、算出した前記重み付き補完類似度が高い順に所定数の用語データの組み合わせを特定データとして抽出する、または、算出した前記重み付き補完類似度が所定の閾値を超える用語データの組み合わせを特定データとして抽出する特定データ抽出手段として、
機能させるためのプログラム。
【数3】


ただし、nは、特定データの抽出の対象である文書データの総数とする。また、iは、ベクトルの次元数とする。また、a,b,c,dは、文書データi中に出現する2つの用語データの数に応じて0~1の間で設定される、用語データと文書データとの相関度とする。

【請求項9】
前記特定データ抽出手段を、2つの異なる言語によって作成された同じ内容の文書データを対象にして特定データの抽出を行った場合に、言語毎に抽出された特定データを2つの言語間で比較することによって訳語の関係にある用語データの組み合わせを抽出する手段として、
機能させるための請求項8に記載のプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2003055193thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close