TOP > 技術シーズ検索 > カラー文書画像からの文字抽出方法

カラー文書画像からの文字抽出方法 新技術説明会

シーズコード S090002343
掲載日 2010年3月19日
研究者
  • 岡本 正行
技術名称 カラー文書画像からの文字抽出方法 新技術説明会
技術概要 まずカラー文書画像からのスムージングによるディザの除去を行う。画素の色値のRGBからL u v ヘの変換とヒストグラム作成を行う。色情報のファジイクラスタリングを行う。帰属度を基に色分解画像(2値画像)作成を行う。2値画像のノイズ除去を行う。黒画素および白画素のラベリングをする文字行の抽出を行う。文字抽出に適した2値画像の選択を行う。最後に文字行の抽出を行う。ファジイクラスタリングでは、要素にそのクラスタの影響を示す各クラスタ中心までの距離の比で決まる0~1の値の帰属度を使用する。初期クラスタ中心を適当に与え、各要素を最も近いクラスタ中心に所属させる。その後、各クラスタに対して平均値により新たなクラスタ中心を計算し、再度新しいクラスタを求める。これらの操作をクラスタ中心が変化しなくなるまで繰り返し、最終的なクラスタを得る。このK-平均法に帰属度の考えを付け加えて拡張したFCMに、クラスタの分割、統合、消滅といった処理を加えた、自己収束型ファジイクラスタリングを使用する。
画像

※ 画像をクリックすると拡大します。

S090002343_01SUM.gif
展開可能なシーズ ファジイクラスタリングによって得られる帰属度を用いることによって、微妙な色の識別を可能とする。文字列が単色で書かれていることを前提として、色情報をクラスタリングすることによって、画像の背景色と文字色を分離し、複雑で多様な背景からでも文字を抽出できる。同じ文字列内の各文字の色が同一で単色であれば、2値化された色分解画像をラベリングし、そのラベルの外接矩形から文字の並びと思われる特徴を見つけ出す。
画素数の少ない色の分離ができるようになり、色彩の豊富な画像で必要以上にクラスタが生成しない。複雑な背景で多彩な色を持つ画像に対して有効性が認められる。ファジイクラスタリングを利用し、類似色をまとめることによって、文字色部分のみを抜き出すことができる。要素のクラスタヘの所属の程度を表す帰属度という値を持つクラスタリングアルゴリズムにより、微妙な色(背景と文字の中間色など)の所属の程度が分かる。
用途利用分野 光学的文字読み取り装置(OCR),カラー画像処理装置,パターン抽出装置

PAGE TOP