TOP > 国内特許検索 > 文字認識装置、文字認識方法およびプログラム > 明細書

明細書 :文字認識装置、文字認識方法およびプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5964078号 (P5964078)
公開番号 特開2013-178659 (P2013-178659A)
登録日 平成28年7月8日(2016.7.8)
発行日 平成28年8月3日(2016.8.3)
公開日 平成25年9月9日(2013.9.9)
発明の名称または考案の名称 文字認識装置、文字認識方法およびプログラム
国際特許分類 G06K   9/20        (2006.01)
FI G06K 9/20 340K
G06K 9/20 360C
G06K 9/20 340B
請求項の数または発明の数 12
全頁数 10
出願番号 特願2012-042085 (P2012-042085)
出願日 平成24年2月28日(2012.2.28)
新規性喪失の例外の表示 特許法第30条第1項適用 精密工学会・画像応用技術専門委員会サマーセミナー2011テキストVol.20(平成23年8月29日)公益社団法人精密工学会・画像応用技術専門委員会発行の1-5に発表
審査請求日 平成27年2月10日(2015.2.10)
特許権者または実用新案権者 【識別番号】800000068
【氏名又は名称】学校法人東京電機大学
発明者または考案者 【氏名】中村 明生
【氏名】淵田 正隆
個別代理人の代理人 【識別番号】100110928、【弁理士】、【氏名又は名称】速水 進治
審査官 【審査官】新井 則和
参考文献・文献 特開2002-185782(JP,A)
特開2008-191906(JP,A)
特開2006-119942(JP,A)
特開2003-078640(JP,A)
西川 誠 ほか,カラー画像処理による指先での文字列領域の特定法,第57回全国大会講演論文集(2) 人工知能と認知科学,日本,情報処理学会,1998年10月 5日,pp.2-138 - 2-139
淵田 正隆,中村 明生,視覚障害者のための指先指定文字認識の検討,映像情報メディア学会技術報告 Vol.35 No.33 ITE Technical Report,日本,映像情報メディア学会,2011年 8月22日,第35巻 第33号,pp.13-16,ISSN 1342-6893
調査した分野 G06K 9/00-9/82
特許請求の範囲 【請求項1】
2値化された画像内の指標の位置を検出し、前記指標の位置に基づいて、1つの文字と推定される領域である文字候補領域を認識する文字候補認識手段と、
前記文字候補認識手段が認識した前記文字候補領域毎に、文字と推定される色を有する領域を膨張させる膨張処理を施し、前記膨張処理を施した前記文字候補領域同士で繋がった領域を文字列領域として認識する文字列領域認識手段と、
前記文字列領域に基づき、前記画像から文字列を抽出する文字列抽出手段を有する文字認識装置。
【請求項2】
請求項1に記載の文字認識装置において、
前記文字列抽出手段は、
前記画像全体における2次元座標値を保持しており、前記画像全体における前記2次元座標値と前記文字列領域の前記2次元座標値とを比較して、前記画像から前記文字列を抽出する文字認識装置。
【請求項3】
請求項1に記載の文字認識装置において、
前記文字列抽出手段は、
前記膨張処理を施した画像をマスク情報として別途保持し、前記画像と前記マスク情報の論理積から、前記文字列を抽出する文字認識装置。
【請求項4】
請求項1~3のいずれか一項に記載の文字認識装置において、
前記文字候補認識手段は、
前記画像内で移動する前記指標の位置に基づいて基準領域を生成し前記生成した基準領域を用いて前記画像から前記文字候補領域を認識する文字認識装置。
【請求項5】
コンピュータが、
2値化された画像内の指標の位置を検出し、前記指標の位置に基づいて、1つの文字と推定される領域である文字候補領域を認識し、
前記文字候補領域毎に、文字と推定される色を有する領域を膨張させる膨張処理を施し、前記膨張処理を施した前記文字候補領域同士で繋がった領域を文字列領域として認識し、
前記文字列領域に基づき、前記画像から文字列を抽出する文字認識方法。
【請求項6】
請求項5に記載の文字認識方法において、
前記コンピュータが、
前記画像全体における2次元座標値を保持しており、前記画像全体における前記2次元座標値と前記文字列領域の前記2次元座標値とを比較して、前記画像から前記文字列を抽出する文字認識方法。
【請求項7】
請求項5に記載の文字認識方法において、
前記コンピュータが、
前記膨張処理を施した画像をマスク情報として別途保持し、前記画像と前記マスク情報の論理積から、前記文字列を抽出する文字認識方法。
【請求項8】
請求項5~7のいずれか一項に記載の文字認識方法において、
前記コンピュータが、
前記画像内で移動する前記指標の位置に基づいて基準領域を生成し前記生成した基準領域を用いて前記画像から前記文字候補領域を認識する文字認識方法。
【請求項9】
コンピュータを、
2値化された画像内の指標の位置を検出し、前記指標の位置に基づいて、1つの文字と推定される領域である文字候補領域を認識する手段、
前記文字候補領域毎に、文字と推定される色を有する領域を膨張させる膨張処理を施し、前記膨張処理を施した前記文字候補領域同士で繋がった領域を文字列領域として認識する手段、
前記文字列領域に基づき、前記画像から文字列を抽出する手段として機能させるためのプログラム。
【請求項10】
請求項9に記載のプログラムにおいて、
前記コンピュータを、
前記画像全体における2次元座標値を保持する手段、
前記画像全体における前記2次元座標値と前記文字列領域の前記2次元座標値とを比較して、前記画像から前記文字列を抽出する手段としてさらに機能させるためのプログラム。
【請求項11】
請求項9に記載のプログラムにおいて、
前記コンピュータを、
前記膨張処理を施した画像をマスク情報として別途保持する手段、
前記画像と前記マスク情報の論理積から、前記文字列を抽出する手段としてさらに機能させるためのプログラム。
【請求項12】
請求項9~11のいずれか一項に記載のプログラムにおいて
前記コンピュータを、
前記画像内で移動する前記指標の位置に基づいて基準領域を生成し前記生成した基準領域を用いて前記画像から前記文字候補領域を認識する手段としてさらに機能させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は文字認識装置、文字認識方法およびプログラムに関する。
【背景技術】
【0002】
視覚障害者は、主に点字や音声といった情報によって周囲から情報を取得している。しかし、商品の容器や張り紙など、生活において重要な情報を含む文字情報には、これらの情報が備わっていないことが多い。
【0003】
点字や音声の情報を備えない文字情報から、音声情報を作成するシステムとして、例えば特許文献1や非特許文献1に記載の装置がある。特許文献1に記載のシステムは、装置への入力情報とする画像の中で、ある特性をもつ色に囲まれた領域を切り出し、その領域に存在する文字を抽出する。そして抽出した文字を文字コードに変換して音声合成部で読み上げるものである。
【0004】
非特許文献1に記載の装置は、入力画像上の文字を指先でなぞり、なぞった部分にある文字を認識して読み上げるものである。
【先行技術文献】
【0005】

【特許文献1】特開平4-24885号公報
【0006】

【非特許文献1】淵田正隆、中村明生 著、「指先指定文字抽出の検討」、第17回画像センシングシンポジウム、横浜、2011年6月、IS3-08-1~IS3-08-4
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1では、当該装置用に予めマークが施された資料でなければ、文字を抽出することができず、一般に流通する商品や張り紙のように、予めこのようなマークをつけることが難しいものでは、文字情報は認識できない。
【0008】
また、非特許文献1に記載の文字認識装置では、2値化した原画像全体に膨張処理を施して繋がった領域を文字領域として認識する。しかし、原画像全体に膨張処理を施してしまうと文字でない背景領域のノイズが大きくなるため、文字領域として誤って認識されてしまい、精度が落ちる恐れがある。
【0009】
本発明の目的は、上記問題に鑑み、指先でなぞった部分の文字をより高い精度で認識する、汎用的な文字認識装置、文字認識方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0010】
本発明によれば、
2値化された画像から、1つの文字と推定される領域である文字候補領域を認識する文字候補認識手段と、
前記文字候補認識手段が認識した前記文字候補領域毎に、文字と推定される色を有する領域を膨張させる膨張処理を施し、前記膨張処理を施した前記文字候補領域同士で繋がった領域を文字列領域として認識する文字列領域認識手段と、
前記文字列領域に基づき、前記画像から文字列を抽出する文字列抽出手段を有する文字認識装置が提供される。
【0011】
本発明によれば、
コンピュータが、
2値化された画像から、1つの文字と推定される領域である文字候補領域を認識し、
前記文字候補領域毎に、文字と推定される色を有する領域を膨張させる膨張処理を施し、前記膨張処理を施した前記文字候補領域同士で繋がった領域を文字列領域として認識し、
前記文字列領域に基づき、前記画像から文字列を抽出する文字認識方法が提供される。
【0012】
本発明によれば、
コンピュータを、
2値化された画像から、1つの文字と推定される領域である文字候補領域を認識する手段、
前記文字候補領域毎に、文字と推定される色を有する領域を膨張させる膨張処理を施し、前記膨張処理を施した前記文字候補領域同士で繋がった領域を文字列領域として認識する手段、
前記文字列領域に基づき、前記画像から文字列を抽出する手段として機能させるためのプログラムが提供される。
【発明の効果】
【0013】
本発明によれば、指先でなぞった部分の文字をより高い精度で認識することができる、汎用的な文字認識装置、文字認識方法およびプログラムが提供される。
【図面の簡単な説明】
【0014】
【図1】本発明の第1の実施形態に係る文字認識装置の構成を示すブロック図である。
【図2】本発明の第1の実施形態に係る文字認識装置の処理の流れを示すフローチャートである。
【図3】生成される矩形の例を示す図である。
【図4】矩形の配置例を示す図である。
【図5】矩形の拡大方法を説明する図である。
【図6】文字候補領域を認識する流れを説明する図である。
【図7】文字候補認識部が文字列領域部に送信する情報の例を示す図である。
【図8】文字列領域認識部が送信する文字列領域の例を示す図である。
【図9】文字列抽出部が抽出する文字列の例を示す図である。
【図10】文字と推定される色を決定する流れを示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

【0016】
(第1の実施形態)
図1は、本発明の第1の実施形態に係る文字認識装置10の構成を示すブロック図である。文字認識装置10は、文字候補認識部102と、文字列領域認識部104と、文字列抽出部106を有する。

【0017】
文字候補認識部102は、1つの文字と推定される領域である文字候補領域を認識する。

【0018】
文字列領域認識部104は、文字候補認識部102が認識した文字候補領域毎に、文字と推定される色を有する領域を膨張させる膨張処理を施し、膨張処理を施した文字候補領域同士で繋がった領域を、文字列領域112として認識する。

【0019】
文字列抽出部106は、文字列領域112に基づき、画像から文字を抽出する。

【0020】
なお、各図に示した文字認識装置10の各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。文字認識装置10の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶メディア、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置には様々な変形例がある。

【0021】
本実施形態における処理の流れを、図2~9を用いて説明する。

【0022】
まず、文字候補認識部102は、2値化された画像(以下、2値化画像とする。)を取得する(S102)。そして、文字認識手段102は、2値化画像から文字候補領域の認識処理を行う(S104)。

【0023】
まず、文字候補認識部102は、図3に示すように、画像の中の指標108に基づき文字候補領域を特定するための矩形110を2値化画像上に生成する。ここで、矩形110と画像上の文字との関係は、例えば、図4(a)に示すように、文字候補領域が矩形110内に収まる場合と、図4(b)、(c)に示すように、文字候補領域が矩形110内に収まらない場合とが考えられる。文字候補認識部102は、図4(a)のような場合は、矩形110をそのまま文字候補領域としてよいが、図4(b)、(c)のような場合は、図5に示すように矩形110を拡大して文字候補領域を特定する。以下で矩形110を拡大する処理の流れについて説明する。

【0024】
文字候補認識部102は、図5に示すように矩形110の外周を走査し、矩形110の外周と接する画素が文字と推定される色であるか否かを確認する。文字と推定される色は、2値化画像のどちらの色が文字と推定される色かを示す情報を、図示しない記憶部で予め記憶しておくことなどで判断できる。文字と推定される色の画素が存在した場合、文字候補認識部102は、矩形110を一定量拡大する。ここで、文字候補認識部102は、外周の縦方向を走査していた場合は横方向の幅を拡大し、外周の横方向を走査していた場合は縦方向の幅を拡大する。例えば、図5のA地点では、文字候補認識部102は、矩形110の横幅を左方向に一定量拡大する。文字候補認識部102は、文字と推定される色の画素が矩形110の外周に存在しなくなるまでこの処理を繰り返す。そして、拡大した矩形110'内の領域を文字候補領域として認識する。なお、矩形110の総拡大量には制限が設けてあり、文字候補認識部102は、制限した量まで拡大した場合はそれ以上矩形110を拡大しないよう制御する。これにより、矩形110が制限なく拡大しないよう制御する。また、文字候補認識部102は、指標108が矩形内に含まれること防ぐため、指標108の示す座標値より下の領域へ矩形110を拡大しないよう制御する。

【0025】
文字候補認識部102は、図示しない記憶部で記憶する、指標108が通過した位置の座標に基づき、上述の処理を繰り返し実行して複数の文字候補領域を特定する。最終的に、文字候補認識部102は、例えば図6に示すように、複数の文字候補領域を特定する。文字候補認識部102は、特定したすべての文字候補領域を文字列領域認識部104へ送信する。図7は、文字列領域認識部104へ送信される情報の例を示す図である。

【0026】
文字列領域認識部104は、文字候補認識部102より受信した情報に基づき、文字列領域112を認識する(S106)。まず、文字列領域認識部104は、認識した各文字候補領域において、文字と推定される色の領域を膨張させる膨張処理を施す。そして、文字列領域認識部104は、各文字候補領域同士でいくつか形成される連結領域の中から、ノイズを除去して文字列領域112を特定する。文字列領域認識部104は、連結領域と対応する文字候補領域の形状に基づき、当該連結領域がノイズか否かを判別する。文字列領域認識部104は、当該連結領域と対応する文字候補領域の上下左右の対称性、2値化した色の密度比、2値化した色で形成される形状の複雑さや大きさなどの情報に基づき、ノイズを判別する。このようにして、連結領域の中から例えば図8に示すように、膨張処理によって繋がった各文字候補領域からノイズを除去し、文字列領域112を認識する。文字列領域認識部104は、文字列を抽出するための情報として、例えば文字列領域112の座標値や膨張処理をかけた図8に示す画像(マスク情報)などを、文字列抽出部106へ送信する。

【0027】
なお、元となる2値化画像が傾いていると、文字候補領域は傾いた状態で連結される可能性があるため、文字列領域認識手段104は、ノイズを除去する前に、連結領域の慣性主軸を計算して傾き角度を求め、アフィン変換などで傾きを補正してもよい。傾きを補正することで、文字列領域認識手段104が文字列とノイズを判別する精度が向上する。

【0028】
文字列抽出部106は、文字列領域認識部104から受信した文字列領域112に基づき、2値化された画像から文字列を抽出する(S108)。例えば、文字列領域112の座標値を受信した場合、文字列抽出部106は、その座標値に該当する領域を文字列として抽出する。あるいは、マスク情報を受信した場合、2値化された画像とマスク情報の論理積により、該当する領域を文字列として抽出する。図9は、文字列抽出部106が抽出する文字列の一例を示す図である。

【0029】
以上、本実施形態において、指標の通過した座標値に基づいて1つの文字と推定される文字候補領域を認識し、各文字候補領域に膨張処理を施し、連結した領域の中から文字列領域112を認識する構成を取る。本構成により、背景のノイズを抑えて文字列を精度良く抽出することができる。

【0030】
なお、本実施形態において、例えば指先そのものを指標とすることもできるし、指先に特定波長の光を反射する物質をつけ、その物資を指標とすることもできる。

【0031】
(第2の実施形態)
本実施形態は、第1の実施形態で認識した文字情報を音声として読み上げる構成を取る。

【0032】
本実施形態では、第1の実施形態の文字認識装置10に、図示しない画像入力部および音声合成部をさらに有する。画像入力部は、カメラなどの入力装置からカラー画像を取得する。音声合成部は、文字候補認識部102、文字列領域認識部104、文字列抽出部106を用いて、商品パッケージの表面などから抽出した文字列をテキスト化し、音声として読み上げる。

【0033】
画像入力部は、例えば小型カメラなどから、処理対象とするカラー画像を原画像として取得する。そして、画像入力部は、原画像を「文字と推定される色」と「文字と推定される色以外の色」とで構成される2値化画像に変換する。図10は、文字と推定される色を決定する流れを示す図である。画像入力部は、原画像に平滑化処理を施した画像のヒストグラムを生成し、極大値、極小値などを基準に、ヒストグラムの切り分け位置を決定する。そして、切り分け位置に基づいた色空間を作成する。画像入力部は、指標108の座標値に基づき、矩形110を生成し、矩形110内に存在する色を先の色空間に投影する。そして、画像入力部は、色空間内で最も投票数が多いマスに該当する色を、「文字と推定される色」の候補とする。そして、画像入力部は、候補とした「文字と推定される色」で2値化を行い、矩形110内の「文字と推定される色」の密度や、「文字と推定される色」の領域の個数などを判定基準とし、矩形110の「文字と推定される色」を決定する。最も投票数が多い色が判定基準を満たさない場合、画像入力部は、次に投票数が多いマスに該当する色で同様の判定を行う。そして、画像入力部は、「文字と推定される色」と「文字と推定される色以外の色」とで2値化した画像を作成して、文字候補認識手段102へ送信する。

【0034】
文字候補認識手段102が2値化画像を受信してから文字列を抽出するまでの処理の流れは、第1の実施形態と同様のため省略する。文字抽出部106は、抽出した文字列を音声合成部へ送信する。

【0035】
音声合成部は、文字抽出部106から受信した文字列をOCR(Optical Character Reader)などでテキスト化し、既存の読み上げソフトなどを用いて音声情報として読みあげる。

【0036】
以上、本実施形態において、さらに画像入力部と音声合成部を有する。本構成により、画像入力部で取得した画像内の文字情報を、第1の実施形態のとおり認識して、音声合成部で音声情報として提供することが可能となる。本構成により、例えば商品パッケージ上の商品名を読み上げるなど、視覚障害者の生活を支援する装置を提供することができる。

【0037】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【符号の説明】
【0038】
10 文字認識装置
102 文字候補認識部
104 文字列領域認識部
106 文字列抽出部
108 指標
110、110' 矩形
112 文字列領域
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9