Top > Quick Search > Search Technology seeds > (In Japanese)カラー文書画像からの文字抽出方法

(In Japanese)カラー文書画像からの文字抽出方法 meetings

Seeds code S090002343
Posted date Mar 19, 2010
Researchers
  • (In Japanese)岡本 正行
Name of technology (In Japanese)カラー文書画像からの文字抽出方法 meetings
Technology summary (In Japanese)まずカラー文書画像からのスムージングによるディザの除去を行う。画素の色値のRGBからL u v ヘの変換とヒストグラム作成を行う。色情報のファジイクラスタリングを行う。帰属度を基に色分解画像(2値画像)作成を行う。2値画像のノイズ除去を行う。黒画素および白画素のラベリングをする文字行の抽出を行う。文字抽出に適した2値画像の選択を行う。最後に文字行の抽出を行う。ファジイクラスタリングでは、要素にそのクラスタの影響を示す各クラスタ中心までの距離の比で決まる0~1の値の帰属度を使用する。初期クラスタ中心を適当に与え、各要素を最も近いクラスタ中心に所属させる。その後、各クラスタに対して平均値により新たなクラスタ中心を計算し、再度新しいクラスタを求める。これらの操作をクラスタ中心が変化しなくなるまで繰り返し、最終的なクラスタを得る。このK-平均法に帰属度の考えを付け加えて拡張したFCMに、クラスタの分割、統合、消滅といった処理を加えた、自己収束型ファジイクラスタリングを使用する。
Drawing

※Click image to enlarge.

S090002343_01SUM.gif
Seeds that can be deployed (In Japanese)ファジイクラスタリングによって得られる帰属度を用いることによって、微妙な色の識別を可能とする。文字列が単色で書かれていることを前提として、色情報をクラスタリングすることによって、画像の背景色と文字色を分離し、複雑で多様な背景からでも文字を抽出できる。同じ文字列内の各文字の色が同一で単色であれば、2値化された色分解画像をラベリングし、そのラベルの外接矩形から文字の並びと思われる特徴を見つけ出す。
画素数の少ない色の分離ができるようになり、色彩の豊富な画像で必要以上にクラスタが生成しない。複雑な背景で多彩な色を持つ画像に対して有効性が認められる。ファジイクラスタリングを利用し、類似色をまとめることによって、文字色部分のみを抜き出すことができる。要素のクラスタヘの所属の程度を表す帰属度という値を持つクラスタリングアルゴリズムにより、微妙な色(背景と文字の中間色など)の所属の程度が分かる。
Usage Use field (In Japanese)光学的文字読み取り装置(OCR),カラー画像処理装置,パターン抽出装置

PAGE TOP