TOP > 技術シーズ検索 > 文書処理装置、方法およびプログラム

文書処理装置、方法およびプログラム

シーズコード S090000866
掲載日 2009年9月14日
研究者
  • 寅市 和男
  • 諸岡 泰男
技術名称 文書処理装置、方法およびプログラム
技術概要 部分画像抽出部20は、文書ファイルに含まれるテキスト文書領域と非テキスト文書領域とを抽出し、さらに、これらの各文書領域に含まれる部分画像を抽出する。関数化処理部30は、部分画像抽出部20によって抽出された部分画像の輪郭形状、濃度分布、色変化などを一あるいは複数の関数で近似する処理を行う。輪郭追跡処理部32は、部分画像抽出部20によって抽出された各部分画像に含まれる一あるいは複数の輪郭線を抽出する。接合点抽出処理部34は、輪郭追跡処理部32によって抽出した輪郭点列に基づいて、輪郭線の傾向が変化する接合点を抽出する。関数近似処理部36は、輪郭線に沿って隣接する2つの接合点で区分される部分的な領域(区分領域)を、直線、円弧、自由曲線のいずれかの関数を用いて近似し、この近似処理に関連する特徴情報を作成する。このようにして作成された部分画像内の各輪郭線に対応する特徴量が文書ファイル格納部50に格納される。レイアウト情報生成部40は、文書ファイル内のテキスト文書領域と非テキスト文書領域のそれぞれに含まれる部分画像のレイアウト情報を作成する。このレイアウト情報は文書ファイル格納部50に格納される。
画像

※ 画像をクリックすると拡大します。

S090000866_01SUM.gif
研究分野
  • パターン認識
展開可能なシーズ 文書処理の負担を軽減可能な文書ファイルを作成することができる文書処理装置、方法およびプログラムを提供する。
非テキスト文書領域に含まれる図形や画像等の種類やデータの属性に関係なく関数化近似して得られた特徴量で非テキスト文書領域の内容を定義し、テキスト文書領域と非テキスト文書領域とが混在する文書ファイルをその後に読み出して表示等の文書ファイル処理を行う場合の処理負担を軽減できる。
用途利用分野 コンピュータ、文書処理、非テキスト情報
出願特許   特許 国際特許分類(IPC)
( 1 ) 国立研究開発法人科学技術振興機構, . 寅市 和男, 諸岡 泰男, . 文書処理装置、方法およびプログラム. 特開2006-332823. 2006-12-07
  • H04N   1/387    

PAGE TOP