TOP > 国内特許検索 > 文書処理装置、方法およびプログラム

文書処理装置、方法およびプログラム コモンズ 新技術説明会

国内特許コード P06P003723
整理番号 A222P33
掲載日 2006年12月13日
出願番号 特願2005-150406
公開番号 特開2006-332823
登録番号 特許第4230478号
出願日 平成17年5月24日(2005.5.24)
公開日 平成18年12月7日(2006.12.7)
登録日 平成20年12月12日(2008.12.12)
発明者
  • 寅市 和男
  • 諸岡 泰男
出願人
  • 国立研究開発法人科学技術振興機構
発明の名称 文書処理装置、方法およびプログラム コモンズ 新技術説明会
発明の概要 【課題】 文書処理の負担を軽減可能な文書ファイルを作成することができる文書処理装置、方法およびプログラムを提供すること。
【解決手段】 文書処理装置は、テキスト文書領域と非テキスト文書領域とが混在する文書ファイルの中からテキスト文書領域および非テキスト領域のいずれかに含まれる1つ以上の部分画像を抽出する部分画像抽出部20と、部分画像抽出部20によって抽出された部分画像のレイアウト情報を生成するレイアウト情報生成美部40と、部分画像抽出部20によって抽出された部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理部30と、レイアウト情報生成部40によって生成されされたレイアウト情報とともに、関数化処理部30によって抽出された特徴量を格納する文書ファイル格納部50とを備えている。
【選択図】 図1
従来技術、競合技術の概要


従来から、XML、SGML、HTMLなどの論理構造言語によって文書処理を行う手法が知られている(例えば、特許文献1~4参照。)。これらの論理構造言語を用いることにより、コンピュータに適した形式で文書を処理することが可能になる。
【特許文献1】
特開平11-250041号公報(第6-21頁、図1-14)
【特許文献2】
特開2003-308311号公報(第3-6頁、図1-6)
【特許文献3】
特開2003-316766号公報(第5-14頁、図1-23)
【特許文献4】
特開2004-178010号公報(第7-18頁、図1-17)

産業上の利用分野


本発明は、文字と各種画像とが混在した文書をコンピュータで扱われる形式に変換する文書処理装置、方法およびプログラムに関する。

特許請求の範囲 【請求項1】
テキスト文書領域と非テキスト文書領域とが混在するビットマップ形式の文書ファイルの中から、前記テキスト文書領域および前記非テキスト領域のいずれかに含まれる輪郭線を有する1つ以上の部分画像を抽出する部分画像抽出手段と、
前記部分画像抽出手段によって抽出された前記部分画像のレイアウト情報を生成するレイアウト情報生成手段と、
前記部分画像抽出手段によって抽出された前記部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理手段と、
前記レイアウト情報生成手段によって生成された前記レイアウト情報とともに、前記関数化処理手段によって抽出された特徴量を格納する文書情報格納手段と、
を備えることを特徴とする文書処理装置。

【請求項2】
請求項1において、
前記関数化処理手段は、前記部分画像の輪郭形状、濃度分布、色変化などを一あるいは複数の関数で近似する処理を行うことにより前記特徴量の抽出を行うことを特徴とする文書処理装置。

【請求項3】
請求項1または2において、
紙媒体に印刷された画像を光学的に読み取って前記文書ファイルを作成する文書ファイル取込手段をさらに備えることを特徴とする文書処理装置。

【請求項4】
テキスト文書領域と非テキスト文書領域とが混在するビットマップ形式の文書ファイルの中から、前記テキスト文書領域および前記非テキスト領域のいずれかに含まれる輪郭線を有する1つ以上の部分画像を抽出する部分画像抽出ステップと、
前記部分画像抽出ステップによって抽出された前記部分画像のレイアウト情報を生成するレイアウト情報生成ステップと、
前記部分画像抽出ステップによって抽出された前記部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理ステップと、
前記レイアウト情報生成ステップによって生成された前記レイアウト情報とともに、前記関数化処理ステップによって抽出された特徴量を格納する文書情報格納ステップと

を有することを特徴とする文書処理方法。

【請求項5】
請求項4において、
紙媒体に印刷された画像を光学的に読み取って前記文書ファイルを作成する文書ファイル取込ステップをさらに有することを特徴とする文書処理方法。

【請求項6】
コンピュータを、
テキスト文書領域と非テキスト文書領域とが混在するビットマップ形式の文書ファイルの中から、前記テキスト文書領域および前記非テキスト領域のいずれかに含まれる輪郭線を有する1つ以上の部分画像を抽出する部分画像抽出手段と、
前記部分画像抽出手段によって抽出された前記部分画像のレイアウト情報を生成するレイアウト情報生成手段と、
前記部分画像抽出手段によって抽出された前記部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理手段と、
前記レイアウト情報生成手段によって生成された前記レイアウト情報とともに、前記関数化処理手段によって抽出された特徴量を格納する文書情報格納手段と、
して機能させる文書処理プログラム。

【請求項7】
請求項6において、
コンピュータを、さらに、紙媒体に印刷された画像を光学的に読み取って前記文書ファイルを作成する文書ファイル取込手段として機能させる文書処理プログラム。

【請求項8】
請求項1~3のいずれかに記載された前記文書情報格納手段から前記レイアウト情報と前記特徴量を読み出し、前記特徴量に基づいて前記部分画像を復元し、前記レイアウト情報に基づいてこの復元された部分画像の合成を行うことを特徴とする文書表示装置。

【請求項9】
請求項1~3のいずれかに記載された前記文書情報格納手段に格納された前記特徴量と、検索対象画像に対応する前記特徴量とに基づいて、前記検索対象画像に類似する前記部分画像の有無を判定することを特徴とする文書検索装置。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2005150406thum.jpg
出願権利状態 登録
参考情報 (研究プロジェクト等) CREST 情報社会を支える新しい高性能情報処理技術 領域
ライセンスをご希望の方、特許の内容に興味を持たれた方は、問合せボタンを押してください。


PAGE TOP

close
close
close
close
close
close
close