TOP > 国内特許検索 > プログラム、情報記憶媒体及び文字列認識装置 > 明細書

明細書 :プログラム、情報記憶媒体及び文字列認識装置

発行国 日本国特許庁(JP)
公報種別 再公表特許(A1)
発行日 平成30年10月4日(2018.10.4)
発明の名称または考案の名称 プログラム、情報記憶媒体及び文字列認識装置
国際特許分類 G06K   9/03        (2006.01)
G06K   9/62        (2006.01)
FI G06K 9/03 C
G06K 9/62 G
国際予備審査の請求 未請求
全頁数 27
出願番号 特願2017-556464 (P2017-556464)
国際出願番号 PCT/JP2016/087558
国際公開番号 WO2017/104805
国際出願日 平成28年12月16日(2016.12.16)
国際公開日 平成29年6月22日(2017.6.22)
優先権出願番号 2015247379
優先日 平成27年12月18日(2015.12.18)
優先権主張国 日本国(JP)
指定国 AP(BW , GH , GM , KE , LR , LS , MW , MZ , NA , RW , SD , SL , ST , SZ , TZ , UG , ZM , ZW) , EA(AM , AZ , BY , KG , KZ , RU , TJ , TM) , EP(AL , AT , BE , BG , CH , CY , CZ , DE , DK , EE , ES , FI , FR , GB , GR , HR , HU , IE , IS , IT , LT , LU , LV , MC , MK , MT , NL , NO , PL , PT , RO , RS , SE , SI , SK , SM , TR) , OA(BF , BJ , CF , CG , CI , CM , GA , GN , GQ , GW , KM , ML , MR , NE , SN , TD , TG) , AE , AG , AL , AM , AO , AT , AU , AZ , BA , BB , BG , BH , BN , BR , BW , BY , BZ , CA , CH , CL , CN , CO , CR , CU , CZ , DE , DJ , DK , DM , DO , DZ , EC , EE , EG , ES , FI , GB , GD , GE , GH , GM , GT , HN , HR , HU , ID , IL , IN , IR , IS , JP , KE , KG , KH , KN , KP , KR , KW , KZ , LA , LC , LK , LR , LS , LU , LY , MA , MD , ME , MG , MK , MN , MW , MX , MY , MZ , NA , NG , NI , NO , NZ , OM , PA , PE , PG , PH , PL , PT , QA , RO , RS , RU , RW , SA , SC , SD , SE , SG , SK , SL , SM , ST , SV , SY , TH , TJ , TM , TN , TR , TT , TZ
発明者または考案者 【氏名】朱 碧蘭
【氏名】中川 正樹
出願人 【識別番号】504132881
【氏名又は名称】国立大学法人東京農工大学
個別代理人の代理人 【識別番号】100090398、【弁理士】、【氏名又は名称】大渕 美千栄
【識別番号】100090387、【弁理士】、【氏名又は名称】布施 行夫
審査請求 未請求
テーマコード 5B064
Fターム 5B064AB04
5B064BA06
5B064EA07
5B064EA08
5B064EA18
5B064EA19
要約 文字列認識装置は、手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成して各認識候補のスコアを出力し、複数の認識候補から1つの認識候補を選択し、選択された認識候補が正答であるか誤答であるかを判定する。語句との照合によって認識字種を限定する第1認識処理と、認識字種の限定を行わず且つ文脈を評価する第2認識処理と、認識字種の限定を行わず且つ文脈を評価しない第3認識処理と、第2認識処理で生成された認識候補に正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には最小スコアを出力する第4認識処理のうち少なくとも2つの認識処理を実行し、生成された各認識候補のスコアに基づき1つの認識候補を選択する。
特許請求の範囲 【請求項1】
手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、
各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する選択部と、
選択された認識候補が正答であるか誤答であるかを判定する判定部としてコンピュータを機能させ、
前記認識部は、
記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第2認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、
前記選択部は、
前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とするプログラム。
【請求項2】
請求項1において、
前記認識部は、
前記第3認識処理を含む前記少なくとも2つの認識処理を実行し、
前記選択部は、
前記第3認識処理を含む前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とするプログラム。
【請求項3】
請求項1又は2において、
前記認識部は、
前記第2認識処理と前記第3認識処理と前記第4認識処理とを実行し、
前記選択部は、
前記第2認識処理、前記第3認識処理及び前記第4認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とするプログラム。
【請求項4】
請求項1乃至3のいずれか1項において、
前記選択部は、
前記第1認識処理で生成された各認識候補のスコアを第1の重みにより調整し、前記第2認識処理で生成された各認識候補のスコアを第2の重みにより調整し、前記第3認識処理で生成された各認識候補のスコアを第3の重みにより調整し、前記第4認識処理での認識候補のスコアを第4の重みにより調整し、前記第5認識処理での認識候補のスコアを第5の重みにより調整し、複数の認識候補から、調整後のスコアの最も高い認識候補を選択することを特徴とするプログラム。
【請求項5】
請求項1乃至4のいずれか1項において、
前記判定部は、
第1位の認識候補のスコアと第2位の認識候補のスコアとの差が所定の閾値よりも低い場合に、前記第3認識処理で生成された認識候補の中に正答と一致する認識候補があれば正答と判定し、前記第4認識処理で生成された認識候補の中に正答と一致する認識候補がなければ誤答と判定し、前記第3認識処理で生成された認識候補の中に正答と一致する認識候補がなく且つ前記第4認識処理で生成された認識候補の中に正答と一致する認識候補があれば判定を行わないことを特徴とするプログラム。
【請求項6】
コンピュータ読み取り可能な情報記憶媒体であって、請求項1乃至5のいずれか1項のプログラムを記憶したことを特徴とする情報記憶媒体。
【請求項7】
手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、
各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する選択部と、
選択された認識候補が正答であるか誤答であるかを判定する判定部とを含み、
前記認識部は、
記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第2認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、
前記選択部は、
前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とする文字列認識装置。
発明の詳細な説明 【技術分野】
【0001】
本発明は、プログラム、情報記憶媒体及び文字列認識装置に関する。
【背景技術】
【0002】
近年におけるスマートフォンやタブレット型PCの急速な普及とともに、これらのデバイスを利用した英単語学習や日本語学習のシステムが今後広く実用化されていくことが期待されている。このような環境では、選択式の問題だけでなく、記述式の問題を課して、ユーザ(解答者、受験者)の深い理解を問うことができる。そして手書き文字列認識の技術(例えば、特開2012-80615号公報)を用いれば、採点支援や自動採点を行うことが可能となる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
従来の手書き文字列認識は、認識精度を向上するため語彙(語句)辞書との照合により認識を行う手法が主流であり、筆記された語句は多少間違っていても正しい語句に認識される。すなわち、誤った解答が正答として判定されてしまう問題が発生する。手書き解答を機械認識して正答か誤答かを判定する場合、誤って筆記されたものは間違ったままに認識(誤答として判定)されることが望ましい。しかし、誤った解答を誤答として判定するために、語句の照合を行わないようにすると、認識精度が大きく低下してしまう。
【0004】
本発明は、以上のような課題に鑑みてなされたものであり、その目的とするところは、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能なプログラム、情報記憶媒体及び文字列認識装置を提供することにある。
【課題を解決するための手段】
【0005】
(1)本発明は、手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する選択部と、選択された認識候補が正答であるか誤答であるかを判定する判定部としてコンピュータを機能させ、前記認識部は、記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第2認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、前記選択部は、前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択するプログラムに関する。また、本発明は、コンピュータ読み取り可能な情報記憶媒体であって、上記各部としてコンピュータを機能させるためのプログラムを記憶した情報記憶媒体に関係する。また、本発明は、上記各部を含む文字列認識装置に関係する。
【0006】
本発明によれば、文字認識を行う際に、語句(単語、特定語句)との照合によって認識字種の限定を行う第1認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価する第2認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価しない第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補のスコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。
【0007】
(2)また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記認識部は、前記第3認識処理を含む前記少なくとも2つの認識処理を実行し、前記選択部は、前記第3認識処理を含む前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択してもよい。
【0008】
本発明によれば、第3認識処理を含む少なくとも2つの認識処理を実行し、選択部は、第3認識処理を含む少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。
【0009】
(3)また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記認識部は、前記第2認識処理と前記第3認識処理と前記第4認識処理とを実行し、前記選択部は、前記第2認識処理、前記第3認識処理及び前記第4認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択してもよい。
【0010】
本発明によれば、第2認識処理、第3認識処理及び第4認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。
【0011】
(4)また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記選択部は、前記第1認識処理で生成された各認識候補のスコアを第1の重みにより調整し、前記第2認識処理で生成された各認識候補のスコアを第2の重みにより調整し、前記第3認識処理で生成された各認識候補のスコアを第3の重みにより調整し、前記第4認識処理での認識候補のスコアを第4の重みにより調整し、前記第5認識処理での認識候補のスコアを第5の重みにより調整し、複数の認識候補から、調整後のスコアの最も高い認識候補を選択してもよい。
【0012】
本発明によれば、第1認識処理で生成された各認識候補のスコアと、第2認識処理で生成された各認識候補のスコアと、第3認識処理で生成された各認識候補のスコアと、第4認識処理での認識候補のスコアと、第5認識処理での認識候補のスコアを、それぞれ適切な重み付けにより調整し、調整後のスコアの最も高い認識候補を選択することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。
【図面の簡単な説明】
【0013】
【図1】図1は、本実施形態の文字列認識装置の機能ブロック図の一例である。
【図2A】図2Aは、英単語を認識する際に実行する前処理について説明するための図である。
【図2B】図2Bは、英単語を認識する際に実行する前処理について説明するための図である。
【図2C】図2Cは、英単語を認識する際に実行する前処理について説明するための図である。
【図2D】図2Dは、英単語を認識する際に実行する前処理について説明するための図である。
【図3】図3は、英単語の入力パターンの一例を示す図である。
【図4】図4は、単語リストから構築したトライ辞書の一例を示す図である。
【図5】図5は、トライ辞書での最適経路の探索について説明するための図である。
【図6】図6は、特定語句リストから構築したトライ辞書の一例を示す図である。
【図7】図7は、日本語の入力パターンと切出し候補ラティスの一例を示す図である。
【図8】図8は、処理部の処理の流れの第1の例を示す図である。
【図9A】図9Aは、入力パターンの一例を示す図である。
【図9B】図9Bは、図9Aに示す入力パターンを第1認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
【図9C】図9Cは、図9Aに示す入力パターンを第2認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
【図9D】図9Dは、図9Bに示す認識候補と図9Cに示す認識候補とを統合して調整後スコアによりソートした上位10位の結果を示す図である。
【図10】図10は、処理部の処理の流れの第2の例を示す図である。
【図11A】図11Aは、入力パターンの一例を示す図である。
【図11B】図11Bは、図11Aに示す入力パターンを第1認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
【図11C】図11Cは、図11Aに示す入力パターンを第2認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
【図11D】図11Dは、図11Aに示す入力パターンを第3認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
【図11E】図11Eは、図11Bに示す認識候補と図11Cに示す認識候補と図11Dに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す図である。
【図12A】図12Aは、入力パターンの一例を示す図である。
【図12B】図12Bは、図12Aに示す入力パターンを第2認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
【図12C】図12Cは、図12Aに示す入力パターンを第3認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
【図12D】図12Dは、図12Bに示す認識候補と図12Cに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す図である。
【図13】図13は、処理部の処理の流れの第3の例を示す図である。
【発明を実施するための形態】
【0014】
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

【0015】
1.構成
図1に本実施形態の文字列認識装置の機能ブロック図の一例を示す。なお本実施形態の認識装置は図1の構成要素(各部)の一部を省略した構成としてもよい。

【0016】
文字入力部160は、ユーザが筆記媒体(ペン、指先等)で手書き文字を入力するためのものであり、その機能は、タブレット、タッチパネル等の筆記面などにより実現できる(オンライン方式の場合)。文字入力部160は、筆記媒体が筆記面に触れてから離れるまでの筆記媒体の位置を表す座標データを一定時間間隔で検出し、検出された座標データ列(座標点系列、オンライン手書きパターンと呼ぶ)をストローク(筆画)のデータとして処理部100に出力する。なお、ストロークの終点から次のストロークの始点までのベクトルをオフストローク(運筆ベクトル)と呼び、ストロークとオフストロークの連続する系列をストローク列と呼ぶ。なお、オフライン方式では、文字入力部160は、紙等に筆記された文字を、スキャナー等で白黒画像或いは濃淡画像として読み取る。

【0017】
記憶部170は、処理部100の各部としてコンピュータを機能させるためのプログラムや各種データを記憶するとともに、処理部100のワーク領域として機能し、その機能はハードディスク、RAMなどにより実現できる。

【0018】
表示部190は、処理部100で生成された画像を出力するものであり、その機能は、文字入力部160としても機能するタッチパネル、LCD或いはCRTなどのディスプレイにより実現できる。

【0019】
処理部100(プロセッサ)は、文字入力部160からの座標データやプログラムなどに基づいて、認識処理、選択処理、判定処理、表示制御などの処理を行う。この処理部100は記憶部170内の主記憶部をワーク領域として各種処理を行う。処理部100の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。処理部100は、認識部110、選択部112、判定部114、表示制御部120を含む。

【0020】
認識部110は、入力されたストローク列(手書き入力された文字パターンのストローク列)に対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさ(尤度)を示すスコアを出力する(オンライン方式の場合)。なお、オフライン方式では、入力画像から行を切り出し、更に文字或いは文字列を切り出して、文字認識或いは単語認識を行って複数の認識候補を生成し、各認識候補の確からしさ(尤度)を示すスコアを出力する。

【0021】
特に本実施形態の認識部110は、記憶部170に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコア(文脈の確からしさを加味したスコア)を出力する第2認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコア(文脈の確からしさを加味しないスコア)を出力する第3認識処理と、第2認識処理で生成された複数の認識候補から正答(記憶部170に記憶された正答)と一致する認識候補を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理のうち、少なくとも2つの認識処理(第1認識処理と第2認識処理、第1認識処理と第3認識処理、第1認識処理と第4認識処理、第2認識処理と第3認識処理、第2認識処理と第4認識処理、第3認識処理と第4認識処理、第1認識処理と第2認識処理と第3認識処理、第1認識処理と第2認識処理と第4認識処理、第1認識処理と第3認識処理と第4認識処理、第2認識処理と第3認識処理と第4認識処理のいずれか)を実行する。なお、認識部110は、第3認識処理に加えて(或いは、第3認識処理に代えて)、第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理を実行してもよい。なお、正しい解答が正答として判定される率を高める場合(すなわち、誤った解答が正答として判定されることをある程度許容する場合)には、第4認識処理及び/又は第5認識処理において、正答と一致する認識候補がある場合には当該認識候補のスコアとして所定の最大スコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアを出力するようにしてもよい。

【0022】
選択部112は、少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する。選択部112は、第1認識処理で生成された各認識候補のスコアを第1の重みにより調整し、第2認識処理で生成された各認識候補のスコアを第2の重みにより調整し、第3認識処理で生成された各認識候補のスコアを第3の重みにより調整し、第4認識処理での認識候補のスコアを第4の重みにより調整し、少なくとも2つの認識処理で生成された複数の認識候補から、調整後のスコアの最も高い認識候補を選択してもよい。また、第5認識処理を実行する場合には、第5認識処理での認識候補のスコアを第5の重みにより調整する。

【0023】
判定部114は、選択部112で選択された認識候補を、記憶部170に記憶された正答と照合して、選択された認識候補が正答であるか誤答であるかを判定する。また、判定部114は、第1位の認識候補のスコア(重みによる調整後のスコア)と第2位の認識候補のスコア(重みによる調整後のスコア)との差が所定の閾値よりも低い場合に、第3認識処理で生成された認識候補の中に正答と一致する認識候補があれば正答と判定し、第4認識処理で生成された認識候補の中に正答と一致する認識候補がなければ誤答と判定し、第3認識処理で生成された認識候補の中に正答と一致する認識候補がなく且つ第4認識処理で生成された認識候補の中に正答と一致する認識候補があれば判定を行わないようにしてもよい。

【0024】
表示制御部120は、入力されたストローク列を表示部190に表示させる制御と、選択部112で選択された認識候補(認識された文字列、認識結果)及び判定部114の判定結果(正答であるか誤答であるか)を表示部190に表示させる制御を行う。

【0025】
2.本実施形態の手法
次に本実施形態の手法について図面を用いて説明する。

【0026】
本実施形態の手法では、語句(単語、特定語句)との照合を用いる文字列認識(第1認識処理)と、語句との照合を用いずに文脈の確からしさを評価する文字列認識(第2認識処理)とを行い、それぞれの認識候補のスコアに重みをつけて認識候補を統合して、最適な認識候補を選択し認識結果として出力する。以下では、ストロークの時系列情報を用いるオンライン手書き認識に適用した場合について主に説明するが、ストロークの画像としての特徴を用いるオフライン手書き認識に適用することもできる。オフライン手書き認識では、行や文字の間隔から文字画像を切り出し、切り出した文字画像に対して文字認識を適用するが、それ以降の処理については全く同様に適用することができる。

【0027】
2-1.英単語認識
まず、英単語を認識する場合を例にとって説明する。英単語を認識する場合、前処理を行った後、単語照合による認識と、単語照合によらない認識を行う。

【0028】
前処理では、まず、入力された文字パターン(入力パターン)を構成する筆点列から特徴点を抽出する(図2A参照)。ここでは、まず、各ストロークの始点と終点を特徴点として選択し、隣接する両特徴点間の筆点からその両特徴点の連結線への距離を計算し、当該距離が最大になる筆点に着目し、当該距離が閾値以上であれば、当該筆点を特徴点として選択する。そして、新たな特徴点から隣接する他の特徴点に連結線を引き、同様の処理を選択可能な特徴点がなくなるまで再帰的に繰り返す。次に、ベースラインを抽出する。ここでは、筆点列の極小点と極大点を近似する2つの線形回帰直線を利用してベースラインBL、CL(図2B参照)を抽出する。次に、行の傾き補正を行う(図2B参照)。ここでは、ベースラインBL、CLの水平に対する角度が0になるようにストローク列全体を回転させることで、入力パターンの行方向の傾きを補正する。次に、文字の傾き補正を行う(図2C参照)。ここでは、隣接する両特徴点の連結線と水平線のなす角度のヒストグラムにおける最大値の角度を傾斜角度として検出し、その傾斜角度でせん断変換を行う。次に、オンライン手書き認識では取扱いが困難な遅延ストローク(例えば、「t」の横線や「i」のドット)を削除する(図2D参照)。最後に、入力パターンのサイズを正規化する。

【0029】
単語照合による認識(第1認識処理)では、まず、単語のリスト(語彙集合)からトライ辞書(Trie lexicon)を構築する。次に、トライ辞書で上位複数の経路(認識候補)を求める。ここでは、MRF(Markov random field)による単独文字認識を利用して、入力パターンの複数の特徴点から文字切出し候補となる特徴点を選択する。そして、選択した文字切出し候補で切出される文字候補の経路に対して、複数項目の確からしさ(尤度)を統合的に評価し、認識を行う。複数項目の確からしさとしては、MRF認識の確からしさ、P2DMN-MQDF(Pseudo 2D bi-moment normalization and modified quadratic discriminant function)認識の確からしさ、文字サイズの確からしさ、文字構造の確からしさ、文字位置の確からしさ、及び文字間重なりの確からしさを示すスコアを与える。

【0030】
図3に、入力パターン(前処理が施された入力パターン)の一例を示し、図4に、単語リストから構築したトライ辞書の一例を示す。図3に示す例では、入力パターン「Offer」から56個の特徴点f~f56が抽出されている。また、図4に示すトライ辞書には、単語「Offal」「Offer」「Oak」「Occur」「Ocean」「page」が登録されている。

【0031】
図5は、トライ辞書での最適経路の探索について説明するための図である。まず、トライ辞書の最初のノードから探索を開始する。図4に示すトライ辞書では、最初のノードは、「O」、「p」であり、これらを最初の認識字種に設定する。MRF認識により、特徴点fからスタートする文字切出し候補を選択する。図5に示す例では、「O」として認識する場合は、3つの文字切出し候補「f-f16」「f-f17」「f-f18」が選択され、「p」として認識する場合は、3つの文字切出し候補「f-f12」「f-f15」「f-f18」が選択されている。これらの(階層dにおける)文字切出し候補に対して複数項目の確からしさを示すスコアを求め、上位2つの文字切出し候補を選択する。図5に示す例では、「O」として認識する場合の「f-f16」と「f-f18」が選択されている。図4に示すトライ辞書では、「O」から拡張する文字は「f」「a」「c」であり、これらを次の認識字種として設定する。文字「O」の「f-f16」から拡張する文字切出し候補は特徴点f17からスタートする。MRF認識により、特徴点f17からスタートする文字切出し候補を選択する。図5に示す例では、「f」として認識する場合は、3つの文字切出し候補「f17-f18」「f17-f20」「f17-f22」が選択され、「a」として認識する場合は、3つの文字切出し候補「f17-f18」「f17-f19」「f17-f20」が選択され、「c」として認識する場合は、3つの文字切出し候補「f17-f18」「f17-f20」「f17-f21」が選択されている。同様に、文字「O」の「f-f18」から拡張する文字切出し候補を選択する。図5に示す例では、「f」として認識する場合は、3つの文字切出し候補「f19-f29」「f19-f30」「f19-f31」が選択され、「a」として認識する場合は、3つの文字切出し候補「f19-f23」「f19-f24」「f19-f25」が選択され、「c」として認識する場合は、3つの文字切出し候補「f19-f24」「f19-f25」「f19-f26」が選択されている。これらの(階層dにおける)文字切出し候補に対して複数項目の確からしさを示すスコアを求め、上位2つの文字切出し候補を選択する。図5に示す例では、「f」として認識する場合の「f19-f29」と「f19-f31」が選択されている。選択された文字切出し候補から更に拡張していき、入力パターンの終端(ここでは、特徴点f56)に至るまで同様の処理を行う。図5に示す例では、「O」→「f」→「f」→「e」→「r」の経路が最適な経路(第1認識処理でのスコアが最も高い認識候補)となる。

【0032】
単語照合によらない認識(第2認識処理)では、MRF認識により文字切出し候補を選択する際に、トライ辞書による認識字種の限定を行わず、全ての字種(79字種)を対象とする。認識結果の探索方法は単語照合による認識手法(第1認識処理)と同様である。ただし、第2認識処理では、認識精度を向上するために、認識候補の経路を評価する際に、上述した複数項目の確からしさに加えて文脈(文字と文字の繋がり)の確からしさを評価する(文脈の確からしさを加味したスコアを求める)。ここでは、文脈の確からしさとして、3文字の連接確率であるトリグラム(tri-gram)確率を採用するが、2文字の連接確率であるバイグラム(bi-gram)確率を用いてもよい。なお、文字認識自体の精度が十分に高い場合には、文脈の確からしさを評価しなくてもよい。この場合、第2認識処理は後述する第3認識処理と等価である。

【0033】
2-2.日本語認識
次に、日本語を認識する場合を例にとって説明する。日本語を認識する場合、特定語句との照合による認識(第1認識処理)と、特定語句との照合によらない認識(第2認識処理)を行う。日本語を認識する場合は、英単語を認識する場合と異なり、特徴点の抽出と非線形正規化を文字ごとに行う。また、文字の切り出しは、オフストロークとその前後のストロークの情報に基づいて行う。

【0034】
特定語句との照合による認識(第1認識処理)では、まず、特定語句のリスト(語彙集合)からトライ辞書を構築する。次に、入力パターンを、隣接ストローク間の空間情報などの特徴値を用いて、複数個のユニットに仮切出しする。これには確定的な切出しと非確定的な切出しがある。非確定的な切出しについては、分割する場合と結合する場合の両方を想定して文字パターン候補を構成する。そして、考えられる全ての文字パターン候補を連結して切出し候補ラティスを構成する。図6に、特定語句リストから構築したトライ辞書の一例を示し、図7に、入力パターンと切出し候補ラティスの一例を示す。図7には、入力パターン「腰椎炎」と、7つのノードND~NDを持つ切出し候補ラティスが示されている。切出し候補ラティスにおいて、各ノードは1つの文字パターン候補を示し、各アークは切出しポイントを示す。図7に示す例では、S、S、S、Sが確定的な切出しポイントであり、S、Sが非確定的な切出しポイントである。各ノードに示される数字は、そのノードから終端までの文字数の可能な長さである。

【0035】
次に、ビームサーチを適用して切出しポイントの順番で切出し候補ラティスを探索し、上位複数の経路(認識候補)を求める。探索においては、トライ辞書、切出し候補ラティスの探索経路及び特定語句の長さから、文字パターン候補の認識字種を限定する。探索した経路に対して、複数項目の確からしさ(尤度)を総合的に評価し、認識を行う。複数項目の確からしさとしては、文字認識の確からしさ、文字パターン候補や切出しポイントの幾何学的な特徴(文字パターンサイズ、文字パターン内分割、シングル文字パターン位置、ペア文字パターン位置、切出しポイント)の確からしさを示すスコアを与える。

【0036】
図7に示すノードNDについて考えると、ノードNDから終端までの文字数は「4」又は「5」である。図6に示すトライ辞書では、終端までの文字数が「4」をとり得る最初のノードは「腰」であるから、ノードNDの認識字種として「腰」を設定する。次に、ノードNDについて見ると、ノードNDから終端までの文字数は「3」又は「4」である。図6に示すトライ辞書では、最初のノード「腰」「耳」「日」は全て終端までの文字数が「3」をとり得るから、ノードNDの認識字種として「腰」「耳」「日」を設定する。次に、ノードNDについて見ると、ノードNDから終端までの文字数は「3」又は「4」である。図6に示すトライ辞書では、最初のノード「腰」に続くノードは「椎」「痛」「部」であり、このうち終端までの文字数が「3」をとり得るノードは「椎」「部」であるから、ノードNDの認識字種として「椎」「部」を設定する。以降、終端(ノードND)に至るまで同様の処理を行い、切出しポイントSから切出しポイントSに至る全てのノードの経路について評価を行う。図7に示す例では、ノードNDの「腰」→ノードNDの「腰」→ノードNDの「炎」の経路が最適な経路(第1認識処理でのスコアが最も高い認識候補)となる。

【0037】
特定語句との照合によらない認識(第2認識処理)では、トライ辞書による認識字種の限定を行わず、DP-Matchingにより切出し候補ラティスを探索し、探索した経路を評価する。ただし、第2認識処理では、認識精度を向上するために、認識候補の経路を評価する際に、上述した複数項目の確からしさに加えて文脈の確からしさを評価する(文脈の確からしさを加味したスコアを求める)。ここでは、文脈の確からしさとして、3文字の連接確率であるトリグラム確率を採用するが、2文字の連接確率であるバイグラム確率を用いてもよい。なお、文字認識自体の精度が十分に高い場合には、文脈の確からしさを評価しなくてもよい。この場合、第2認識処理は後述する第3認識処理と等価である。

【0038】
2-3.認識候補の統合
図8は、処理部100の処理の流れの第1の例を示す図である。まず、処理部100は、文字入力部160で入力された文字パターン(入力パターン)を取得する(ステップS10)。次に、認識部110は、記憶部170に記憶された語句(単語リスト、或いは特定語句のリスト)との照合による第1認識処理を行って上位複数の認識候補を生成し(ステップS12)、記憶部170に記憶された語句との照合によらず文脈の確からしさを評価する第2認識処理を行って上位複数の認識候補を生成する(ステップS14)。

【0039】
次に、選択部112は、第1認識処理で生成された各認識候補のスコアを重みW(第1の重み)で調整し(ステップS16)、第2認識処理で生成された各認識候補のスコアを重みW(第2の重み)で調整する(ステップS18)。具体的には、第1認識処理での上位L(Lは正の整数)位の認識候補Cd(L)のスコアをSd(L)、第2認識処理での上位m(mは正の整数)位の認識候補Cc(m)のスコアをSc(m)とすると、調整後のスコアSd(L)’、Sc(m)’を次式により求める。

【0040】
Sd(L)’=WSd(L)
Sc(m)’=WSc(m)
なお、W+W=1とし、重みW、Wは予め学習データにより学習しておく。

【0041】
次に、選択部112は、第1認識処理での複数の認識候補及び第2認識処理での複数の認識候補を統合して調整後のスコアによりソートし(ステップ20)、調整後のスコアの最も高い認識候補(第1位の認識候補)を選択して認識結果とする(ステップS22)。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数(2つ)存在する場合には、高い方のスコアを当該認識候補のスコアとする。次に、判定部114は、認識結果(選択された認識候補)を記憶部170に記憶された正答と照合して、選択された認識候補が正答であるか誤答であるかを判定し、判定結果を出力する(ステップS24)。

【0042】
図9A~図9Dに、第1認識処理と第2認識処理とを行った場合の認識候補の統合の具体例を示す。図9Aに示す入力パターンでは、「Market」と筆記すべきところ「Martet」と誤って筆記されている。図9Bは、図9Aに示す入力パターンを第1認識処理で認識したときの認識候補Cd(L)とスコアSd(L)と調整後スコアSd(L)’であり、図9Cは、図9Aに示す入力パターンを第2認識処理で認識したときの認識候補Cc(m)とスコアSc(m)と調整後スコアSc(m)’である。また、図9Dは、図9Bに示す認識候補と図9Cに示す認識候補とを統合して調整後スコアによりソートした上位10位の結果を示す。図9Dに示す統合結果では、認識候補「Martet」が第1位となっているため、この認識候補が認識結果となる。従って、認識結果が正答(ここでは、「Market」)と照合された結果、誤答として判定されることになる。

【0043】
図10は、処理部100の処理の流れの第2の例を示す図である。なお、図10に示すステップS30、S32、S34、S36、S38、S44については、図8に示すステップS10、S12、S14、S16、S18、S24と同様であるから、説明を省略する。認識部110は、第1認識処理と第2認識処理に加えて、記憶部170に記憶された語句との照合によらず且つ文脈の確からしさを評価しない第3認識処理を行って上位複数の認識候補を生成する(ステップS35)。第3認識処理は、トライ辞書による認識字種の限定を行わない点で第2認識処理と同様であるが、認識候補の経路を評価する際に文脈の確からしさを評価しない(文脈の確からしさを加味しないスコアを出力する)点で第2認識処理と異なる。

【0044】
選択部112は、第3認識処理で生成された各認識候補のスコアを重みW(第3の重み)で調整する(ステップS39)。具体的には、第3認識処理での上位n(nは正の整数)位の認識候補C(n)のスコアをS(n)とすると、調整後のスコアS(n)’を次式により求める。

【0045】
(n)’=W(n)
なお、W+W+W=1とし、重みW、W、Wは予め学習データにより学習しておく。

【0046】
次に、選択部112は、第1認識処理での複数の認識候補、第2認識処理での複数の認識候補及び第3認識処理での複数の認識候補を統合して調整後のスコアによりソートし(ステップ40)、調整後のスコアの最も高い認識候補(第1位の認識候補)を選択して認識結果とする(ステップS42)。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数(2つ又は3つ)存在する場合には、高い方のスコアを当該認識候補のスコアとする。

【0047】
なお、ステップS34、S38の処理を省略して、ステップS40において、第1認識処理での複数の認識候補及び第3認識処理での複数の認識候補を統合して調整後のスコアによりソートするように構成してもよい。この場合、W+W=1とし、重みW、Wは予め学習データにより学習しておく。

【0048】
また、ステップS32、S36の処理を省略して、ステップS40において、第2認識処理での複数の認識候補及び第3認識処理での複数の認識候補を統合して調整後のスコアによりソートするように構成してもよい。この場合、W+W=1とし、重みW、Wは予め学習データにより学習しておく。

【0049】
図11A~図11Eに、第1認識処理と第2認識処理と第3認識処理とを行った場合の認識候補の統合の具体例を示す。図11Aに示す入力パターンでは、「Market」と筆記すべきところ「Martet」と誤って筆記されている。図11Bは、図11Aに示す入力パターンを第1認識処理で認識したときの認識候補Cd(L)とスコアSd(L)と調整後スコアSd(L)’であり、図11Cは、図11Aに示す入力パターンを第2認識処理で認識したときの認識候補Cc(m)とスコアSc(m)と調整後スコアSc(m)’であり、図11Dは、図11Aに示す入力パターンを第3認識処理で認識したときの認識候補C(n)とスコアS(n)と調整後スコアS(n)’である。また、図11Eは、図11Bに示す認識候補と図11Cに示す認識候補と図11Dに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す。図11Eに示す統合結果では、認識候補「Martet」が第1位となっているため、この認識候補が認識結果となる。従って、認識結果が正答(ここでは、「Market」)と照合された結果、誤答として判定されることになる。

【0050】
図12A~図12Dに、第2認識処理と第3認識処理とを行った場合の認識候補の統合の具体例を示す。図12Aに示す入力パターンでは、「体育」と筆記すべきところ「休育」と誤って筆記されている。図12Bは、図12Aに示す入力パターンを第2認識処理で認識したときの認識候補Cc(m)とスコアSc(m)と調整後スコアSc(m)’であり、図12Cは、図12Aに示す入力パターンを第3認識処理で認識したときの認識候補C(n)とスコアS(n)と調整後スコアS(n)’である。また、図12Dは、図12Bに示す認識候補と図12Cに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す。図12Dに示す統合結果では、認識候補「休育」が第1位となっているため、この認識候補が認識結果となる。従って、認識結果が正答(ここでは、「体育」)と照合された結果、誤答として判定されることになる。

【0051】
図13は、処理部100の処理の流れの第3の例を示す図である。なお、図13に示すステップS50~S59、S68については、図10に示すステップS30~S39、S44と同様であるから、説明を省略する。認識部110は、第1認識処理と第2認識処理と第3認識処理に加えて、第2認識処理で生成された認識候補から正答(記憶部170に記憶された正答)を検索する第4認識処理を行う(ステップS60)。ステップS60では、認識部110は、第2認識処理で生成された認識候補に正答と一致する認識候補がある場合には、正答と一致する認識候補のスコアを出力し、第2認識処理で生成された認識候補に正答と一致する認識候補がない場合には、各認識候補のスコアとして所定の最小スコア(選択部112で選択されないほどの非常に小さいスコア)を出力する。選択部112は、第4認識処理から出力された認識候補のスコアを重みW(第4の重み)で調整する(ステップS62)。具体的には、第4認識処理での認識候補CのスコアをSとすると、調整後のスコアS’を次式により求める。

【0052】
’=W
なお、W+W+W+W=1とし、重みW、W、W、Wは予め学習データにより学習しておく。

【0053】
次に、選択部112は、第1認識処理での複数の認識候補、第2認識処理での複数の認識候補、第3認識処理での複数の認識候補、及び第4認識処理での認識結果を統合して調整後のスコアによりソートし(ステップ64)、調整後のスコアの最も高い認識候補(第1位の認識候補)を選択して認識結果とする(ステップS66)。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数(2つ又は3つ)存在する場合には、高い方のスコアを当該認識候補のスコアとする。

【0054】
3.評価実験
3-1.英単語認識の実験
本実施形態の手法を評価するために、英単語を認識する実験を行った。オンライン手書き英語データベースIAM-OnDBの学習データ(5,364文字列)を利用して、英単語辞書(MRF認識辞書、P2DMN-MQDF認識辞書、文字サイズ評価辞書、文字構造評価辞書及び文字間重なり評価辞書)を学習した。IAM-OnDBのテストデータ(3,859文字、5562単語)から単語のトライ辞書を作成した。英単語辞書に含まれる10種類の単語を3パターンずつ正しく筆記した30個の手書き単語パターン(正答単語パターン)を作成した。また、これら10種類の単語を3パターンずつ、故意に一部の文字(1文字又は2文字)を間違えて筆記した30個の手書き単語パターン(誤答単語パターン)を作成した。この2つのデータセットを用いて評価を行った。

【0055】
まず、正答単語パターンと誤答単語パターンのそれぞれに対して、第1認識処理のみを行う方式、第2認識処理のみを行う方式、第1認識処理と第2認識処理とを行う方式(図8に示す処理)の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表1に、判定率の結果を示す。

【0056】
【表1】
JP2017104805A1_000003t.gif
第1認識処理(単語照合による認識)のみを行う場合では、正しい解答(正答単語パターン)については全て正答として判定されたが、誤った解答(誤答単語パターン)については47%もの率で正答として判定された。また、第2認識処理(単語照合によらず文脈の確からしさを評価する認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については43%もの率で誤答として判定された。一方、第1認識処理と第2認識処理とを行う場合では、正しい解答について誤答と判定される率が10%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第1の重み)は0.2074であり、重みW(第2の重み)は0.7926である。

【0057】
このように、第1認識処理と第2認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。実際の学習環境において、正しい解答が誤答として判定された場合には、解答者の申告によって判定を訂正できる可能性がある。ところが、誤った解答が正答として判定された場合には、解答者が申告する動機を持ち難いため、申告がされずに判定を訂正できない恐れがある。従って、誤った解答を正答として判定することは極力避ける必要がある。

【0058】
次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第3認識処理のみを行う方式、第1認識処理と第3認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表2に、判定率の結果を示す。

【0059】
【表2】
JP2017104805A1_000004t.gif
第3認識処理(単語照合によらず文脈の確からしさを評価しない認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については63%もの率で誤答として判定された。一方、第1認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が13%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第1の重み)は0.2072であり、重みW(第3の重み)は0.7928である。

【0060】
このように、第1認識処理と第3認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

【0061】
次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第1認識処理と第2認識処理と第3認識処理とを行う方式(図10に示す処理)により認識を行い、正答として判定した率と誤答として判定した率を求めた。表3に、判定率の結果を示す。

【0062】
【表3】
JP2017104805A1_000005t.gif
第1認識処理と第2認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が7%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第1の重み)は0.1126であり、重みW(第2の重み)は0.4343であり、重みW(第3の重み)は0.4531である。

【0063】
このように、第1認識処理と第2認識処理と第3認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

【0064】
3-2.日本語語句認識の実験
本実施形態の手法を評価するために、日本語の語句を認識する実験を行った。朝日新聞記事データベースCD-HIASKと青空文庫を利用して、文脈処理辞書を学習した。5種類の語句を10パターンずつ正しく筆記した50個の手書き語句パターン(正答語句パターン)を作成した。また、これら5種類の語句を10パターンずつ、故意に一部の文字(1文字又は2文字)を間違えて筆記した50個の手書き語句パターン(誤答語句パターン)を作成した。この2つのデータセットを用いて評価を行った。

【0065】
正答語句パターンと誤答語句パターンのそれぞれに対して、第2認識処理のみを行う方式、第3認識処理のみを行う方式、第2認識処理と第3認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表4に、判定率の結果を示す。

【0066】
【表4】
JP2017104805A1_000006t.gif
第2認識処理(語句照合によらず文脈の確からしさを評価する認識)のみを行う場合では、正しい解答(正答語句パターン)については全て正答として判定されたが、誤った解答(誤答語句パターン)については42%もの率で正答として判定された。また、第3認識処理(語句照合によらず文脈の確からしさを評価しない認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については36%もの率で誤答として判定された。一方、第2認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が14%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第2の重み)は0.4715であり、重みW(第3の重み)は0.5285である。

【0067】
このように、第2認識処理と第3認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

【0068】
さらに、日本語の語句を認識する実験を行った。朝日新聞記事データベースCD-HIASKと青空文庫に加えて中学生社会・理科に出現する語句を利用して、文脈処理辞書を学習した。中学生社会・理科に出現する90種類の語句を1パターンずつ正しく筆記した90個の手書き語句パターン(正答語句パターン)を作成した。また、これら90種類の語句を1パターンずつ、故意に一部の文字(1文字又は2文字)を間違えて筆記した90個の手書き語句パターン(誤答語句パターン)を作成した。この2つのデータセットを用いて評価を行った。

【0069】
正答語句パターンと誤答語句パターンのそれぞれに対して、第2認識処理のみを行う方式、第3認識処理のみを行う方式、第2認識処理と第3認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表5に、判定率の結果を示す。

【0070】
【表5】
JP2017104805A1_000007t.gif
第2認識処理(語句照合によらず文脈の確からしさを評価する認識)のみを行う場合では、正しい解答(正答語句パターン)については95.6%と高い確率で正答として判定されたが、誤った解答(誤答語句パターン)については13.3%もの率で正答として判定された。また、第3認識処理(語句照合によらず文脈の確からしさを評価しない認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については30%もの率で誤答として判定された。一方、第2認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が11.1%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第2の重み)は0.4805であり、重みW(第3の重み)は0.5195である。

【0071】
次に、正答語句パターンと誤答語句パターンのそれぞれに対して、第4認識処理のみを行う方式、第3認識処理と第4認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表6に、判定率の結果を示す。

【0072】
【表6】
JP2017104805A1_000008t.gif
第4認識処理(第2認識処理で生成した認識候補から正答と一致する認識候補を検索する認識)のみを行う場合では、正しい解答(正答語句パターン)については全て正答として判定されたが、誤った解答(誤答語句パターン)については27.8%もの率で正答として判定された。一方、第3認識処理と第4認識処理とを行う場合では、正しい解答について誤答と判定される率が11.1%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第3の重み)は0.5194であり、重みW(第4の重み)は0.4806である。

【0073】
このように、第3認識処理と第4認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

【0074】
次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第2認識処理と第3認識処理と第4認識処理とを行う方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表7に、判定率の結果を示す。

【0075】
【表7】
JP2017104805A1_000009t.gif
第2識処理と第3認識処理と第4認識処理とを行う場合では、正しい解答について誤答と判定される率が10%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW(第2の重み)は0.3263であり、重みW(第3の重み)は0.3528であり、重みW(第4の重み)は0.3209である。

【0076】
このように、第2認識処理と第3認識処理と第4認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

【0077】
なお、本発明は、上述の実施の形態に限定されるものではなく、種々の変更が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

【0078】
例えば、複数の認識候補を統合する際に、第1位の認識候補のスコアが所定の閾値よりも低い場合、或いは、第1位の認識候補のスコアと第2位の認識候補のスコアとの差が所定の閾値よりも低い(差が無い)場合、或いは、認識候補と正しい解答との文字列の類似度をレーベンシュタイン距離やジャロ・ウィンクラー距離などで求め、それらの文字列の類似度が高い場合に、認識結果を出力しない(リジェクトする)ようにしてもよい。このようにすると、誤採点率(正しい解答が誤答として判定される確率や誤った解答が正答として判定される確率)を更に低減することができる。

【0079】
また、第1位の認識候補のスコアと第2位の認識候補のスコアとの差が所定の閾値よりも低い場合に、第3認識処理で生成された認識候補の中に正答と一致する認識候補があれば(第1の条件を満たした場合)正答と判定し、第4認識処理で生成された認識候補の中に正答と一致する認識候補がなければ(第2の条件を満たした場合)誤答と判定し、第1の条件と第2の条件の両方を満たさない場合にリジェクトする処理(曖昧判定処理)を行ってもよい。

【0080】
正答語句パターンと誤答語句パターンのそれぞれに対して、第2認識処理と第3認識処理と第5認識処理を行う方式、第2認識処理と第3認識処理と第5認識処理に加えて曖昧判定処理を行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表8に、判定率の結果を示す。なお、表8では、正答語句パターンと誤答語句パターンが同頻度で発生すると仮定して、全体を100%にした結果を示す。

【0081】
【表8】
JP2017104805A1_000010t.gif
第2認識処理と第3認識処理と第5認識処理を行う場合では、正しい解答について13%(正答語句パターンの中では26%)もの率で誤答として判定された。一方、曖昧判定処理を追加することで、正しい解答について誤答と判定される率が1.6%(正答語句パターンの中では3.2%)まで低下した。なお、曖昧判定処理により19.8%の解答がリジェクトされた。なお、第5認識処理から出力された認識候補のスコアは、重みWs0(第5の重み)で調整する。第5認識処理での認識候補Cs0のスコアをSs0とすると、調整後のスコアSs0’は、次式により求められる。

【0082】
s0’=Ws0s0
なお、W+W+Ws0=1とし、重みW(第2の重み)、W(第3の重み)、Ws0は予め学習データにより学習しておく。表8の実験では、重みWは0.3209であり、重みWは0.3412であり、重みWs0は0.3379である。

【0083】
また、上記実施形態では、認識候補のスコアを重みにより線形的に調整する場合について説明したが、非線形関数を用いてスコアを調節してもよい。
【符号の説明】
【0084】
100 処理部、110 認識部、112 選択部、114 判定部、120 表示制御部、160 文字入力部、170 記憶部、190 表示部
図面
【図1】
0
【図2A】
1
【図2B】
2
【図2C】
3
【図2D】
4
【図3】
5
【図4】
6
【図5】
7
【図6】
8
【図7】
9
【図8】
10
【図9A】
11
【図9B】
12
【図9C】
13
【図9D】
14
【図10】
15
【図11A】
16
【図11B】
17
【図11C】
18
【図11D】
19
【図11E】
20
【図12A】
21
【図12B】
22
【図12C】
23
【図12D】
24
【図13】
25