TOP > 国内特許検索 > 文書セット分類装置及びそのプログラム

文書セット分類装置及びそのプログラム コモンズ

国内特許コード P140010738
整理番号 03-83
掲載日 2014年7月7日
出願番号 特願2003-290929
公開番号 特開2005-063071
登録番号 特許第3921540号
出願日 平成15年8月8日(2003.8.8)
公開日 平成17年3月10日(2005.3.10)
登録日 平成19年3月2日(2007.3.2)
発明者
  • 野畑 周
  • 井佐原 均
  • 関根 聡
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 文書セット分類装置及びそのプログラム コモンズ
発明の概要 【課題】特定言語の特性に依存せず、かつ分類の網羅性を高めたより好適な分類を文書セットに付与する。
【解決手段】複数の文書の集合である文書セットに対して分類を付与するものとして、前記文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が何れの固有表現クラスに属するかを判断する判断手段101と、前記判断手段101が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段102とを具備する文書セット分類装置を構成した。
【選択図】図1
従来技術、競合技術の概要


複数文書の自動要約は、要約の研究において近年関心の高まっている分野である。米国のDocument Understanding Conference(DUC)や日本のText Summarization Challenge(TSC)でも、要約システムの評価を行う課題として複数文書の要約が対象に加えられている。複数文書要約とは、単一の主題について収集された複数の文書を含む文書セットを単一の文書に要約することである。より具体的に述べると、ある事件の始まりから終わりまでの一連の報告や、特定個人の行動・発言の内容、各地で発生した地震の被害状況等の主題に沿って収集された複数の文書より、当該主題に関する要約を生成することである。



要約の精度を向上させるためには、文書セットがもつ主題を正しく把握し、それに応じて適切な要約手法、出力形式を選択する必要があると考えられる。複数文書要約の観点から文書セットを分類する先行研究として、コロンビア大学のMcKeown等によるものがある(非特許文献1を参照)。McKeown等は、複数の新聞記事を包含する記事セットに付与すべき分類として、
(A)Single-Event(特定の地域・期間に限定された単独の出来事に関する記事セット)
(B)Person-centered(特定人物にまつわる出来事を記述した記事セット)
(C)Multi-Event(異なる地域・期間にまたがった複数の出来事に関する記事セット。大抵は行動主体も異なる)
(D)Other(上記の3分類に当てはまらない、互いに漠然と関連している記事セット)
の4種類を定義した。そして、記事セットを分類する際の手がかりとして、記事セット中の全記事間のタイムスパン、同日に掲載された記事の割合、大文字で始まる語の頻度、he、she等の人称代名詞の頻度、を用いている。
【非特許文献1】
K. R. McKeown and R. Barzilay and D. Evans and V. Hatzivassilogou and M. Yen Kan and B. Schiffman and S. Teufel, [online], “Columbia Multi-Document Summarization: Approach and Evaluation”, Online Proceedings of DUC2001 <http://www-nlpir.nist.gov/projects/duc/pubs/2001papers/columbia#redo.pdf>

産業上の利用分野



本発明は、複数の文書を包含する文書セットに分類を付与するための分類装置及びそのプログラムに関する。

特許請求の範囲 【請求項1】
任意に与えられた固有表現クラスの定義に基づき複数の文書の集合である文書セットに対して前記固有表現クラスの定義に基づいて得られる分類を付与するものであって、
前記文書セットに含まれる文書の中に出現する固有表現を抽出するとともに、抽出した固有表現が属する固有表現クラスを、固有表現と固有表現が属する固有表現クラスとが列挙されたデータ群を参照して判定する固有表現抽出手段と、
前記文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が任意に与えられた前記固有表現クラスのうち何れの固有表現クラスに属するかを判断する判断手段と、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している前記固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段と
を具備し、
前記判断手段は、
判断対象である固有表現の頻度が予め定められた閾値以上となる場合はその単独の固有表現に関するものと判断し、当該固有表現がなく且つ判断対象である固有表現クラスの頻度がそれぞれに対して予め定められた閾値以上となる場合は複数の固有表現に関するものと判断するものであり、かつ、
前記固有表現が、前記固有表現抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するものである
ことを特徴とする文書セット分類装置。

【請求項2】
前記文書セットに含まれる文書の中に出現するクラスタームを抽出するとともに、抽出したクラスタームが関連する固有表現クラスを、クラスタームとクラスタームが関連する固有表現クラスとが列挙されたデータ群を参照して判定するクラスターム抽出手段をさらに具備し、
前記判断手段は、
前記固有表現が、前記クラスターム抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するものである
請求項1記載の文書セット分類装置。

【請求項3】
任意に与えられた固有表現クラスの定義に基づき複数の文書の集合である文書セットに対して前記固有表現クラスの定義に基づいて得られる分類を付与するものであって、
前記文書セットに含まれる文書の中に出現するクラスタームを抽出するとともに、抽出したクラスタームが関連する固有表現クラスを、クラスタームとクラスタームが関連する固有表現クラスとが列挙されたデータ群を参照して判定するクラスターム抽出手段と、
前記文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が任意に与えられた前記固有表現クラスのうち何れの固有表現クラスに属するかを判断する判断手段と、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している前記固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段と
を具備し、
前記判断手段は、
判断対象である固有表現の頻度が予め定められた閾値以上となる場合はその単独の固有表現に関するものと判断し、当該固有表現がなく且つ判断対象である固有表現クラスの頻度がそれぞれに対して予め定められた閾値以上となる場合は複数の固有表現に関するものと判断するものであり、かつ、
前記固有表現が、前記クラスターム抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するものである
ことを特徴とする文書セット分類装置。

【請求項4】
前記判断手段は、前記文書セットに含まれる複数の文書の各々が作成若しくは発表された時点に関する情報を参照し、これら複数の文書のうちの一定の割合以上のものが予め定められた期間内に作成若しくは発表されていることを条件として、前記記事セットの主題に係る固有表現が単独でありかつその属する固有表現クラスがイベント名クラスである旨の判断を下す請求項1、2または3記載の文書セット分類装置。

【請求項5】
与えられた文書の中に存在するキーワードを抽出し、一の文書のキーワードと他の文書のキーワードとの類似度を算出し、その類似度が閾値を超える場合にこれらの文書を同一の文書セットに割り当てることを通じて、複数の文書から少なくとも一の文書セットを生成し得る文書セット生成手段をさらに具備する請求項1、2、3または4記載の文書セット分類装置。

【請求項6】
請求項1、2、3、4または5記載の文書セット分類装置とともに用いられるものであって、
前記文書セット分類装置が出力する、前記文書セットに付与された分類についての情報を参照し、この分類に対応した要約アルゴリズムにより前記文書セットに含まれる複数の文書を単一の文書に要約する要約手段を具備する文書要約装置。

【請求項7】
請求項1、2、4または5記載の文書セット分類装置を構成するために用いられるものであって、コンピュータを、少なくとも、
複数の文書の集合である文書セットに含まれる文書の中に出現する固有表現を抽出するとともに、抽出した固有表現が属する固有表現クラスを固有表現と固有表現が属する固有表現クラスとが列挙されたデータ群を参照して判定する固有表現抽出手段、
文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が任意に与えられた前記固有表現クラスのうち何れの固有表現クラスに属するかを判断する判断手段、及び、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している前記固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段
として機能させ
前記判断手段は、前記コンピュータを、
判断対象である固有表現の頻度が予め定められた閾値以上となる場合はその単独の固有表現に関するものと判断し、当該固有表現がなく且つ判断対象である固有表現クラスの頻度がそれぞれに対して予め定められた閾値以上となる場合は複数の固有表現に関するものと判断し、かつ、
前記固有表現が、前記固有表現抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するように機能させる
ことを特徴とするプログラム。

【請求項8】
前記コンピュータを、さらに
前記文書セットに含まれる文書の中に出現するクラスタームを抽出するとともに、抽出したクラスタームが関連する固有表現クラスを、クラスタームとクラスタームが関連する固有表現クラスとが列挙されたデータ群を参照して判定するクラスターム抽出手段として機能させ、
前記判断手段は、前記コンピュータを、
前記固有表現が、前記クラスターム抽出手段の判定結果に従って、その判定された固有表現クラスに属するとの判断を実行するものである請求項7記載のプログラム。

【請求項9】
請求項3、4または5記載の文書セット分類装置を構成するために用いられるものであって、コンピュータを、少なくとも、
複数の文書の集合である文書セットに含まれる文書の中に出現するクラスタームを抽出するとともに、抽出したクラスタームが関連する固有表現クラスを、クラスタームとクラスタームが関連する固有表現クラスとが列挙されたデータ群を参照して判定するクラスターム抽出手段と、
前記文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が任意に与えられた前記固有表現クラスのうち何れの固有表現クラスに属するかを判断する判断手段と、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している前記固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段と
として機能させ
前記判断手段は、前記コンピュータを、
判断対象である固有表現の頻度が予め定められた閾値以上となる場合はその単独の固有表現に関するものと判断し、当該固有表現がなく且つ判断対象である固有表現クラスの頻度がそれぞれに対して予め定められた閾値以上となる場合は複数の固有表現に関するものと判断し、かつ、
前記固有表現が、前記クラスターム抽出手段の判定結果に従って、その判定された固有表現クラスに属すると判断するように機能させる
ことを特徴とする文書セット分類装置。

【請求項10】
前記判断手段は、前記文書セットに含まれる複数の文書の各々が作成若しくは発表された時点に関する情報を参照し、これら複数の文書のうちの一定の割合以上のものが予め定められた期間内に作成若しくは発表されていることを条件として、前記記事セットの主題に係る固有表現が単独でありかつその属する固有表現クラスがイベント名クラスである旨の判断を下す請求項7、8または9記載のプログラム。

【請求項11】
さらにコンピュータを、与えられた文書の中に存在するキーワードを抽出し、一の文書のキーワードと他の文書のキーワードとの類似度を算出し、その類似度が閾値を超える場合にこれらの文書を同一の文書セットに割り当てることを通じて、複数の文書から少なくとも一の文書セットを生成し得る文書セット生成手段としても機能させる請求項7、8、9または10記載のプログラム。

【請求項12】
請求項6記載の文書要約装置を構成するために用いられるものであって、コンピュータを、少なくとも、
文書セット分類装置が出力する、文書セットに付与された分類についての情報を参照し、この分類に対応した要約アルゴリズムにより前記文書セットに含まれる複数の文書を単一の文書に要約する要約手段として機能させるプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2003290929thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close