TOP > 国内特許検索 > 文書分類装置及びプログラム

文書分類装置及びプログラム コモンズ

国内特許コード P140010553
整理番号 06-01
掲載日 2014年5月21日
出願番号 特願2006-154126
公開番号 特開2007-323454
登録番号 特許第4931111号
出願日 平成18年6月2日(2006.6.2)
公開日 平成19年12月13日(2007.12.13)
登録日 平成24年2月24日(2012.2.24)
発明者
  • 村田 真樹
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 文書分類装置及びプログラム コモンズ
発明の概要 【課題】入力した文書に、自動で分類を付与すること。
【解決手段】分類する文書を入力する入力手段1と、前記入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段3と、前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出する文書抽出手段2と、前記類似度を加味した同じ分類の数により前記抽出した指定数の文書の分類のスコアを算出するスコア算出手段4と、前記算出したスコアが指定値より大きい分類を抽出する分類集合抽出手段5とを備える。
【選択図】図1
従来技術、競合技術の概要


従来、サポートベクトルマシン法や最大エントロピー法などの機械学習法を利用した、Multi-class の分類問題に関する研究(非特許文献1参照)では、効果的な方法があった。しかし、類似文書を収集し、それら文書を利用して、Multi-class の分類問題を扱う方法では、効果的な方法がなかった。特に特許分類では、文書数が多くサポートベクトルマシン法や最大エントロピー法などの機械学習法は利用しにくい問題もあった。
【非特許文献1】
平博順、春野雅彦、Support Vector Machineによるテキスト分類における属性選択、情報処理学会論文誌、Vol.41, No.4, 2000, p.1113-1123 。

産業上の利用分野



本発明は、分類したい文書と類似した文書を、検索において高精度で知られるBM25やSMART の方式で収集し、その収集した文書群で出現頻度の大きい分類にその文書を分類する文書分類装置及びプログラムに関する発明である。本発明は特に、一つの文書に複数の分類が付与される、Multi-class の分類問題を扱い、出現頻度の大きい分類のうち、どの分類までを、その文書の分類とするかを自動で決定する枠組みとなっている。

特許請求の範囲 【請求項1】
適切な個数の複数の分類を求める対象として分類する文書を入力する入力手段と、
前記入力された文書と予め1つの文書に複数の分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段と、
前記予め分類の付与された文書集合から前記入力された文書と最も高い類似度から順に指定数の文書を抽出する文書抽出手段と、
前記抽出した指定数の文書について、前記類似度の高いものほど順位を上位とする順位を前記文書について求め、前記抽出した指定数の文書において出現した複数の分類のそれぞれについて、その分類が出現した文書の順位が上位のものほど大とする値と、前記類似度をかけあわせた値とを、前記抽出した指定数の文書のうちその分類が出現した文書分だけ足し合わせて値を求め、その値をその分類のスコアとすることで、その分類のスコアを算出するスコア算出手段と、
前記算出した分類のスコアのうち最も高い分類を特定し、該特定した分類のスコアに指定値をかけた値を求め、該求めた値より大きい複数の分類を前記入力された文書の分類として抽出する分類集合抽出手段とを備えることを特徴とした文書分類装置。

【請求項2】
適切な個数の複数の分類を求める対象として分類する文書を入力する入力手段と、
前記入力された文書と予め1つの文書に複数の分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段と、
前記予め分類の付与された文書集合から前記入力された文書と最も高い類似度から順に指定数の文書を抽出する文書抽出手段と、
前記抽出した指定数の文書において出現していた複数の分類それぞれについて、その分類が前記抽出した指定数の文書のうち出現した文書の個数を求め、その個数をその分類のスコアとすることで、その分類のスコアを算出するスコア算出手段と、
前記算出したスコアが大きい分類順に前記抽出した指定数の文書に付与されている複数の分類の数の平均の分類数分を前記入力された文書の分類として抽出する分類集合抽出手段とを備えることを特徴とした文書分類装置。

【請求項3】
前記抽出した種々の技術的観点から多観点で分類されている複数の文書の分類の技術的観点を二次元の表にし、該表に分類された技術がどこにあるかの印を設けることを特徴とした請求項1又は2記載の文書分類装置。

【請求項4】
前記技術的観点を並べ替え、前記印が付いていない箇所を集め直すこと特徴とした請求項3記載の文書分類装置。

【請求項5】
前記文書は、特許文書であることを特徴とした請求項1~4のいずれかに記載の文書分類装置。

【請求項6】
適切な個数の複数の分類を求める対象として分類する文書を入力する入力手段と、
前記入力された文書と予め1つの文書に複数の分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段と、
前記予め分類の付与された文書集合から前記入力された文書と最も高い類似度から順に指定数の文書を抽出する文書抽出手段と、
前記抽出した指定数の文書について、前記類似度の高いものほど順位を上位とする順位を前記文書について求め、前記抽出した指定数の文書において出現した複数の分類のそれぞれについて、その分類が出現した文書の順位が上位のものほど大とする値と、前記類似度をかけあわせた値とを、前記抽出した指定数の文書のうちその分類が出現した文書分だけ足し合わせて値を求め、その値をその分類のスコアとすることで、その分類のスコアを算出するスコア算出手段と、
前記算出した分類のスコアのうち最も高い分類を特定し、該特定した分類のスコアに指定値をかけた値を求め、該求めた値より大きい複数の分類を前記入力された文書の分類として抽出する分類集合抽出手段として
コンピュータを機能させるためのプログラム。

【請求項7】
適切な個数の複数の分類を求める対象として分類する文書を入力する入力手段と、
前記入力された文書と予め1つの文書に複数の分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段と、
前記予め分類の付与された文書集合から前記入力された文書と最も高い類似度から順に指定数の文書を抽出する文書抽出手段と、
前記抽出した指定数の文書において出現していた複数の分類それぞれについて、その分類が前記抽出した指定数の文書のうち出現した文書の個数を求め、その個数をその分類のスコアとすることで、その分類のスコアを算出するスコア算出手段と、
前記算出したスコアが大きい分類順に前記抽出した指定数の文書に付与されている複数の分類の数の平均の分類数分を前記入力された文書の分類として抽出する分類集合抽出手段として
コンピュータを機能させるためのプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2006154126thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close