Top > Search of Japanese Patents > DOCUMENT SET CLASSIFICATION DEVICE AND ITS PROGRAM

DOCUMENT SET CLASSIFICATION DEVICE AND ITS PROGRAM commons

Patent code P140010738
File No. 03-83
Posted date Jul 7, 2014
Application number P2003-290929
Publication number P2005-063071A
Patent number P3921540
Date of filing Aug 8, 2003
Date of publication of application Mar 10, 2005
Date of registration Mar 2, 2007
Inventor
  • (In Japanese)野畑 周
  • (In Japanese)井佐原 均
  • (In Japanese)関根 聡
Applicant
  • (In Japanese)国立研究開発法人情報通信研究機構
Title DOCUMENT SET CLASSIFICATION DEVICE AND ITS PROGRAM commons
Abstract PROBLEM TO BE SOLVED: To apply a more suitable classification which has excellent exhaustiveness without depending on the characteristics of specific languages.
SOLUTION: This document set classification device for applying a classification to a document set being the group of a plurality of documents is provided with: a decision means 101 for deciding whether the theme of the document set is related with a single specific expression or a plurality of specific expressions and further deciding to which specific expression class the specific expressions are belonging; and an output means 102 for outputting information about a classification specified by two factors, that is, whether the specific expressions related with the theme are single or a plurality and to which specific expression class the specific expressions are belonging on the basis of the decision result of the decision means 101.
Outline of related art and contending technology (In Japanese)

複数文書の自動要約は、要約の研究において近年関心の高まっている分野である。米国のDocument Understanding Conference(DUC)や日本のText Summarization Challenge(TSC)でも、要約システムの評価を行う課題として複数文書の要約が対象に加えられている。複数文書要約とは、単一の主題について収集された複数の文書を含む文書セットを単一の文書に要約することである。より具体的に述べると、ある事件の始まりから終わりまでの一連の報告や、特定個人の行動・発言の内容、各地で発生した地震の被害状況等の主題に沿って収集された複数の文書より、当該主題に関する要約を生成することである。

要約の精度を向上させるためには、文書セットがもつ主題を正しく把握し、それに応じて適切な要約手法、出力形式を選択する必要があると考えられる。複数文書要約の観点から文書セットを分類する先行研究として、コロンビア大学のMcKeown等によるものがある(非特許文献1を参照)。McKeown等は、複数の新聞記事を包含する記事セットに付与すべき分類として、
(A)Single-Event(特定の地域・期間に限定された単独の出来事に関する記事セット)
(B)Person-centered(特定人物にまつわる出来事を記述した記事セット)
(C)Multi-Event(異なる地域・期間にまたがった複数の出来事に関する記事セット。大抵は行動主体も異なる)
(D)Other(上記の3分類に当てはまらない、互いに漠然と関連している記事セット)
の4種類を定義した。そして、記事セットを分類する際の手がかりとして、記事セット中の全記事間のタイムスパン、同日に掲載された記事の割合、大文字で始まる語の頻度、he、she等の人称代名詞の頻度、を用いている。
【非特許文献1】
K. R. McKeown and R. Barzilay and D. Evans and V. Hatzivassilogou and M. Yen Kan and B. Schiffman and S. Teufel, [online], “Columbia Multi-Document Summarization: Approach and Evaluation”, Online Proceedings of DUC2001 <http://www-nlpir.nist.gov/projects/duc/pubs/2001papers/columbia#redo.pdf>

Field of industrial application (In Japanese)

本発明は、複数の文書を包含する文書セットに分類を付与するための分類装置及びそのプログラムに関する。

Scope of claims (In Japanese)
【請求項1】
 
任意に与えられた固有表現クラスの定義に基づき複数の文書の集合である文書セットに対して前記固有表現クラスの定義に基づいて得られる分類を付与するものであって、
前記文書セットに含まれる文書の中に出現する固有表現を抽出するとともに、抽出した固有表現が属する固有表現クラスを、固有表現と固有表現が属する固有表現クラスとが列挙されたデータ群を参照して判定する固有表現抽出手段と、
前記文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が任意に与えられた前記固有表現クラスのうち何れの固有表現クラスに属するかを判断する判断手段と、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している前記固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段と
を具備し、
前記判断手段は、
判断対象である固有表現の頻度が予め定められた閾値以上となる場合はその単独の固有表現に関するものと判断し、当該固有表現がなく且つ判断対象である固有表現クラスの頻度がそれぞれに対して予め定められた閾値以上となる場合は複数の固有表現に関するものと判断するものであり、かつ、
前記固有表現が、前記固有表現抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するものである
ことを特徴とする文書セット分類装置。

【請求項2】
 
前記文書セットに含まれる文書の中に出現するクラスタームを抽出するとともに、抽出したクラスタームが関連する固有表現クラスを、クラスタームとクラスタームが関連する固有表現クラスとが列挙されたデータ群を参照して判定するクラスターム抽出手段をさらに具備し、
前記判断手段は、
前記固有表現が、前記クラスターム抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するものである
請求項1記載の文書セット分類装置。

【請求項3】
 
任意に与えられた固有表現クラスの定義に基づき複数の文書の集合である文書セットに対して前記固有表現クラスの定義に基づいて得られる分類を付与するものであって、
前記文書セットに含まれる文書の中に出現するクラスタームを抽出するとともに、抽出したクラスタームが関連する固有表現クラスを、クラスタームとクラスタームが関連する固有表現クラスとが列挙されたデータ群を参照して判定するクラスターム抽出手段と、
前記文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が任意に与えられた前記固有表現クラスのうち何れの固有表現クラスに属するかを判断する判断手段と、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している前記固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段と
を具備し、
前記判断手段は、
判断対象である固有表現の頻度が予め定められた閾値以上となる場合はその単独の固有表現に関するものと判断し、当該固有表現がなく且つ判断対象である固有表現クラスの頻度がそれぞれに対して予め定められた閾値以上となる場合は複数の固有表現に関するものと判断するものであり、かつ、
前記固有表現が、前記クラスターム抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するものである
ことを特徴とする文書セット分類装置。

【請求項4】
 
前記判断手段は、前記文書セットに含まれる複数の文書の各々が作成若しくは発表された時点に関する情報を参照し、これら複数の文書のうちの一定の割合以上のものが予め定められた期間内に作成若しくは発表されていることを条件として、前記記事セットの主題に係る固有表現が単独でありかつその属する固有表現クラスがイベント名クラスである旨の判断を下す請求項1、2または3記載の文書セット分類装置。

【請求項5】
 
与えられた文書の中に存在するキーワードを抽出し、一の文書のキーワードと他の文書のキーワードとの類似度を算出し、その類似度が閾値を超える場合にこれらの文書を同一の文書セットに割り当てることを通じて、複数の文書から少なくとも一の文書セットを生成し得る文書セット生成手段をさらに具備する請求項1、2、3または4記載の文書セット分類装置。

【請求項6】
 
請求項1、2、3、4または5記載の文書セット分類装置とともに用いられるものであって、
前記文書セット分類装置が出力する、前記文書セットに付与された分類についての情報を参照し、この分類に対応した要約アルゴリズムにより前記文書セットに含まれる複数の文書を単一の文書に要約する要約手段を具備する文書要約装置。

【請求項7】
 
請求項1、2、4または5記載の文書セット分類装置を構成するために用いられるものであって、コンピュータを、少なくとも、
複数の文書の集合である文書セットに含まれる文書の中に出現する固有表現を抽出するとともに、抽出した固有表現が属する固有表現クラスを固有表現と固有表現が属する固有表現クラスとが列挙されたデータ群を参照して判定する固有表現抽出手段、
文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が任意に与えられた前記固有表現クラスのうち何れの固有表現クラスに属するかを判断する判断手段、及び、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している前記固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段
として機能させ
前記判断手段は、前記コンピュータを、
判断対象である固有表現の頻度が予め定められた閾値以上となる場合はその単独の固有表現に関するものと判断し、当該固有表現がなく且つ判断対象である固有表現クラスの頻度がそれぞれに対して予め定められた閾値以上となる場合は複数の固有表現に関するものと判断し、かつ、
前記固有表現が、前記固有表現抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するように機能させる
ことを特徴とするプログラム。

【請求項8】
 
前記コンピュータを、さらに
前記文書セットに含まれる文書の中に出現するクラスタームを抽出するとともに、抽出したクラスタームが関連する固有表現クラスを、クラスタームとクラスタームが関連する固有表現クラスとが列挙されたデータ群を参照して判定するクラスターム抽出手段として機能させ、
前記判断手段は、前記コンピュータを、
前記固有表現が、前記クラスターム抽出手段の判定結果に従って、その判定された固有表現クラスに属するとの判断を実行するものである請求項7記載のプログラム。

【請求項9】
 
請求項3、4または5記載の文書セット分類装置を構成するために用いられるものであって、コンピュータを、少なくとも、
複数の文書の集合である文書セットに含まれる文書の中に出現するクラスタームを抽出するとともに、抽出したクラスタームが関連する固有表現クラスを、クラスタームとクラスタームが関連する固有表現クラスとが列挙されたデータ群を参照して判定するクラスターム抽出手段と、
前記文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が任意に与えられた前記固有表現クラスのうち何れの固有表現クラスに属するかを判断する判断手段と、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している前記固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段と
として機能させ
前記判断手段は、前記コンピュータを、
判断対象である固有表現の頻度が予め定められた閾値以上となる場合はその単独の固有表現に関するものと判断し、当該固有表現がなく且つ判断対象である固有表現クラスの頻度がそれぞれに対して予め定められた閾値以上となる場合は複数の固有表現に関するものと判断し、かつ、
前記固有表現が、前記クラスターム抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するように機能させる
ことを特徴とする文書セット分類装置。

【請求項10】
 
前記判断手段は、前記文書セットに含まれる複数の文書の各々が作成若しくは発表された時点に関する情報を参照し、これら複数の文書のうちの一定の割合以上のものが予め定められた期間内に作成若しくは発表されていることを条件として、前記記事セットの主題に係る固有表現が単独でありかつその属する固有表現クラスがイベント名クラスである旨の判断を下す請求項7、8または9記載のプログラム。

【請求項11】
 
さらにコンピュータを、与えられた文書の中に存在するキーワードを抽出し、一の文書のキーワードと他の文書のキーワードとの類似度を算出し、その類似度が閾値を超える場合にこれらの文書を同一の文書セットに割り当てることを通じて、複数の文書から少なくとも一の文書セットを生成し得る文書セット生成手段としても機能させる請求項7、8、9または10記載のプログラム。

【請求項12】
 
請求項6記載の文書要約装置を構成するために用いられるものであって、コンピュータを、少なくとも、
文書セット分類装置が出力する、文書セットに付与された分類についての情報を参照し、この分類に対応した要約アルゴリズムにより前記文書セットに含まれる複数の文書を単一の文書に要約する要約手段として機能させるプログラム。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2003290929thum.jpg
State of application right Registered
Please contact us by E-mail if you have any interests on this patent


PAGE TOP

close
close
close
close
close
close
close