TOP > 国内特許検索 > 眼球運動を用いた視線入力コミュニケーション方法 > 明細書

明細書 :眼球運動を用いた視線入力コミュニケーション方法

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第3673834号 (P3673834)
公開番号 特開2005-100366 (P2005-100366A)
登録日 平成17年5月13日(2005.5.13)
発行日 平成17年7月20日(2005.7.20)
公開日 平成17年4月14日(2005.4.14)
発明の名称または考案の名称 眼球運動を用いた視線入力コミュニケーション方法
国際特許分類 G06F  3/033     
G06T  1/00      
G06T  7/60      
FI G06F 3/033 310A
G06T 1/00 340A
G06T 7/60 150P
請求項の数または発明の数 4
全頁数 29
出願番号 特願2004-236083 (P2004-236083)
出願日 平成16年8月13日(2004.8.13)
優先権出願番号 2003294213
優先日 平成15年8月18日(2003.8.18)
優先権主張国 日本国(JP)
審査請求日 平成16年8月24日(2004.8.24)
特許権者または実用新案権者 【識別番号】304020177
【氏名又は名称】国立大学法人山口大学
発明者または考案者 【氏名】田中 幹也
【氏名】水上 嘉樹
【氏名】若佐 裕治
早期審査対象出願または早期審理対象出願 早期審査対象出願
審査官 【審査官】久保田 昌晴
参考文献・文献 特開2003-196017(JP,A)
特開2002-117408(JP,A)
特開2001-350578(JP,A)
特開2003-187232(JP,A)
特開平06-004607(JP,A)
特開平09-097162(JP,A)
特開2003-150306(JP,A)
特開平05-324185(JP,A)
特開2000-20196(JP,A)
特開平9-44685(JP,A)
山口修,分離度特徴を用いた顔画像解析,情報処理,日本,社団法人情報処理学会,1996年11月15日,第37巻 第11号,P.1050-1051
柳川貴央,画像処理による注視点入力システムとその応用,電気学会論文誌C,日本,社団法人電気学会,1996年 8月20日,Vol.116-C No.9,P.1029-1034
調査した分野 G06F3/00,3/033
G06T1/00,7/20,7/60
A61B3/10
特許請求の範囲 【請求項1】
被験者の顔全体をとらえた画像より被験者の目が開いている画像と閉じている状態の画像の各画素における値の差を計算し、この差を画素値としてもつ新しい画像を作成させて差画像を取得し、次いで該差画像から目の中心となる座標を求め、その座標から目と眉のテンプレートを登録し、該キャリブレーションを行う時、パソコン画面を数分割した領域を該被験者が各分割領域を見た方向別の画像を登録しておき、黒目の位置を画像処理手法により求め、視線方向検出のための各方向別の基準となる黒目と眉の相対距離を求めておくようにしたことを特徴とする眼球運動を用いた視線入力コミュニケーション方法
【請求項2】
高速テンプレートマッチングを用いて目の位置を連続的に追従しつつ、カメラのズームイン機能により目周辺を大きくとらえた画像で該キャリブレーションおよび視線方向を取得するようにしたことを特徴とする請求項1記載の眼球運動を用いた視線入力コミュニケーション方法
【請求項3】
該キャリブレーション後、数分割した領域の該パソコン画面上に、視線ポインタを眼球と瞼の開閉動作のみの機能でマウスの代わりに入力し、スイッチング操作により、仮想キーボードによる操作を可能としたことを特徴とする請求項1記載の眼球運動を用いた視線入力コミュニケーション方法
【請求項4】
起動させたいアプリケーションを含む区画された画面表示を2秒以上注視することにより、注視していた該区画の領域を拡大し、該被験者の視線が3秒間以上同一方向に向けられていると画面のスクロール速度が高速化する方式を採用し、該高速スクロールによって起動させたい該アプリケーションを該表示画面中央付近まで移動した後、意識的な瞬きを行うことにより、該視線ポインタを該表示画面中央付近に位置するように移動したことを特徴とする請求項1記載の眼球運動を用いた視線入力コミュニケーション方法
発明の詳細な説明 【技術分野】
【0001】
本発明は、重度の筋萎縮性側策硬化症患者(以下、ALSという)等と介護者、家族等とのコミュニケーションを支援する、眼球運動を用いた視線入力コミュニケーションシステムに関する。
【背景技術】
【0002】
ビデオカメラより取り込んだ画像から、視線方向を推定する研究は歴史が長く、従来の研究には近赤外線を用いる手法や、蛍光灯を瞳孔内に映し出すことにより、視線方向を検出する手法等がある。
【0003】
まず、ALS患者等が意思伝達装置を使用している際、顔が動くことによって、眼球の注視位置が検出できない状況をなくし、意思伝達装置が誤操作しないようにすると共に、制御装置の小型化と経済性の優れたものとする特許が公開されている(例えば、特許文献1)。該装置は、視線を利用して意思伝達装置を使用する際には誤操作せず、容易且つ正確に制御できる装置とした。また、該装置は小型で経済性の優れたものとした。具体的には、被験者の顔をデータとして読み込む際に使用する方法を赤外線からCCDカメラとした。また、顔の画像データ量(眼球の位置だけではなく顔の位置、向き、視線方向などとした)を増やした。更に、予めモニターを分割化して被験者がどの部分を見ていたか認識させ画像としてデータ化(辞書)し、実際に使用時には被験者がどのキーを見ているかを辞書から画像データを選定させることで誤操作をなくし、小型化を実現し、経済性の優れたものとする。意思伝達装置を容易且つ正確に、視線による指示入力し制御する具体的な手順は以下の通りである。予め意思伝達装置のモニターを分割化し、被験者に分割箇所の一つ一つの箇所を見てもらい、その都度CCDカメラによって被験者の画像(顔の位置、向き、視線方向)を読み込み認識させデータ化(辞書)しておく。意思伝達装置の使用時には、CCDカメラによって使用者の画像データを読み取り、実際に被験者が操作する上で前記モニター上のキーを見た画像と予め画像データ化しておいた辞書とを比較して辞書の中から類似した画像データを選出し、選出した画像データと対応した箇所に録音されている会話の発声と操作手順を実行する。ところが、特許文献1に記載のものは、本発明のようにALS患者等が眼球機能のみで操作が簡単で汎用的なPCソフトが利用できないといった問題がある。
【0004】
次に、ビデオカメラより取り込んだ画像から、視線方向を検出する従来の技術について説明する。表示画面上に取り付けた2台の小型カメラで取り込んで操作者の顔面の映像から、画像処理装置によりいくつか決定する。視線方向算出装置は、事前に決められている。表示画面上の基準点を見ている時いくつかの点を初期値として記憶する。また、画像処理装置により決定された点と初期値として記憶している点から顔面と眼球の方向を決定し、これらに基づいて視線の方向を算出する。算出された視線方向は演算処理装置に与えられる。また、操作者までの距離が決定され、結果が演算処理装置に与えられる。演算処理装置は、操作者が事前に決められた距離よりも近くにいる場合にかぎり、表示画面上にカーソルを出力する。しかも、視線の方向に応じてカーソルを移動させるようになっている(例えば、特許文献2)。ところが、特許文献2に記載のものは、本発明のようにALS患者等が眼球機能のみで操作が簡単で汎用的なPCソフトが利用できないといった問題がある。
【0005】
また、ユーザのジェスチャ、音声、操作、視線、瞬きの少なくとも一つの情報に基づき、視線検出の機能を中断、再開することで、ユーザの意思に従ってカーソルを制御するようにしたものであり、利用者の視線方向を検出する視線検出手段と、検出した視線位置にカーソルを移動させるかさせないかのカーソル追従モードを管理するカーソル管理手段と、検出された視線位置にカーソルを移動させるカーソル制御部とを備えたものがある(例えば、特許文献3)。ところが、特許文献3に記載のものは特許文献2と同様に、本発明のようにALS患者等が眼球機能のみで操作が簡単で汎用的なPCソフトが利用できないといった問題がある。
【0006】
T.N.Cornsweetらは、近赤外線を目に照射することによって作られる、第1~第4
Purkinje像の中で、第1 Purkinje像(角膜表面の反射像)と第4 Purkinje像(水晶体裏面の反射像)が頭部の動きの影響を相殺することに着目し、頭部をあご台とヘッドレストで簡単に固定するだけで高精度な視線検出を可能にした(非特許文献1)。しかし、第1Purkinje像に比べて1/500倍程度の第4Purkinje像からの信号を分離し検出するための光学系が、複雑かつ大掛かりになるという問題がある。
【0007】
飯田と伴野は、角膜強膜反射法を利用したアイカメラと3次元磁気センサの併用により、使用者の頭の動きによらずに、表示画面上の注視点を検出する手法について提案している(非特許文献2)。ところが、アイカメラは角膜(黒目)と強膜(白目)の光の反射率の違いを利用したLBM方式のアイカメラを用いており、頭部に装着する必要がある。精度評価を行った結果は、検出された注視点と指標の間の平均誤差として0.89 deg.であった。また、視線とマウスを併用することにより、マウス単体による指示入力に比べて、指標の移動距離が大きい場合には有利であることが確認されている。しかし、単一色の背景中に指標やカーソルを表示するという、特殊なケースで実験した等の問題が残る。そこで、実際のワークステーションで表示画面を指示する場合にできるだけ近い指示入力実験を行い、有効性を実用に合った方法で確認している(非特許文献3)。
【0008】
伴野は、近赤外線を眼に照射した時に反射し瞳孔から出る光をカメラでとらえるには、照明装置の配置条件に大きく依存してしまうことに着目し、配置条件の異なる2種類の照明を用いて、瞳孔を抽出する方法を提案している(非特許文献4)。眼球を二つの球が重なったモデルで近似し、レイトレーシングにより、瞳孔全体が同様な明るさで撮影される照明配置条件と、瞳孔が暗く撮影される照明配置条件を求めた。この2つの配置条件の下で、瞳孔が明るい画像と暗い画像を同一カメラで撮影し、これらの差分をとることで瞳孔を抽出している。
【0009】
伴野と岸野は、ステレオ画像計測により顔の3点と瞳孔の空間位置を求め、特徴点の位置情報より、眼球中心を計測し、視線検出を行っている(非特許文献5)。縁に三つのマークをつけた、レンズのない眼鏡を装着することにより、顔上に動きの少ない三つの特徴点を作り出す。2台のカメラシステムは、各々四つの特徴点を撮影画面いっぱいにとらえることで、特徴点の相対的な3次元位置を0.1~0.15mm程度の精度で検出できる。
【0010】
向井らは、濃淡画像を用いて特徴パターン抽出による視線方向検出を行っている(非特許文献6)。照明には一般的な蛍光灯を用いており、赤外線光などの特殊照明灯は使用していないのが特徴である。100インチ表示画面内を3×3に分割し、9方向の視線識別を行っている。入力画像には、顔の鼻より上が用いられており、ソーベルフィルタを用いて、目の位置を検出する。得られた目の位置情報より、目周辺画像を抜き出す。肌の色がノイズとなり黒目の位置を得ることが難しいので、肌の色に近い色彩を除去し、濃淡化することにより特徴パターンを抽出している。標準パターンとのマッチングにより、視線方向を識別する。標準パターンは学習用画像データより作成され、両目それぞれに対して水平・垂直各3パターンが用意されている。実験の結果、9方向識別において、正解率が71.4%であった。表示画面が100インチという大きさを考慮すると、実用的ではないと考えられる。
【0011】
青山らは、眼球の回転角度に顔方向を加算することにより視線方向を求めている(非特許文献7)。心理実験を行い、視線方向の推定には、両目と口の情報から推定できることを確認している。入力画像は胸上の上半身全体であり、エッジ、モザイクパターンを用いて、入力画像より顔画像領域を抽出する。両目と口の抽出には、テンプレートマッチングを用いる。あらかじめ、本人の正面画像より切り出した両目、口の画像を用いてマッチングを行い、各々候補領域を10個ずつ決定する。得られた候補領域より、両目、口として適切な距離にある組み合わせを選択する。目頭・顔の両端も検出し、顔の方向を推定する。テクスチャマッピング画像を用いることにより、投影像と入力画像を比較することにより方向の補正を行っている。評価実験結果は、まず特徴抽出に成功したのが126枚中113枚、89.7%であった。左右方向の平均誤差は円筒モデルで12.9度、平面モデルで10.2度であった。上下方向に関しては、今後の課題となっている。
【0012】
堀場らは、目周辺領域を拡大した画像を2値化することによって、眉毛端点、虹彩中心を抽出し、2点間の相対距離の変位によって視線方向を推定している(非特許文献8)。基準点を顔画像上に設けることにより、頭部の動きを許容するとあるが、目周辺画像が拡大されており、頭部が揺らぐとカメラ画像内から目、眉がはみ出してしまうことが十分に考えられる。
【0013】
西内らは、マーカーを必要とせずに顔の特徴点の抽出を行うことによって顔の向きを検出し、黒目中心の位置を加算することにより視線検出を行っている(非特許文献9)。2値化によって白と黒のみに変換された顔画像より、両目頭と二つの鼻の穴の最も近接する位置の中点を、鼻の特徴点として抽出する。各個人の顔の特徴点間の距離は、あらかじめ測定されており、この距離より三次元空間における座標を計算し顔の向きを推定する。なお、赤外線を用いない代わりに、蛍光灯をCRTの下部に置き、それ以外の照明は無いものとしている。黒目中心は、虹彩領域内に映し出された蛍光灯の光の反射と、黒目の端点より求められる。
【0014】
竹上、後藤は、角膜反射像と虹彩領域の相対関係に基づき、視線方向を推定している(非特許文献10)。視線方向の変化に伴って、角膜における光源の反射像の位置が虹彩領域内で相対的に変化することに着目している。また、角膜反射像と虹彩領域のエッジ部分を特徴点として利用することにより、頭部の固定や指標等を装着することなく、単一カメラで比較的高精度な計測を可能としている。光源によって、安定的に角膜反射像が作り出せるのか問題は残るが、固視微動とほぼ対応する精度(±0.5~0.9 deg.)で検出できることを実験により確認している。
【0015】

【特許文献1】特開2001-350578号公報
【特許文献2】特開平5-298015号公報
【特許文献3】特開2001-100903号公報
【0016】

【非特許文献1】T.N. Cornsweet and H.D. Crane,“Accurate two-dimensional eye tracker using first and fourth Purkinje images,”JournalOpt.Soc.Am.,vol.62,No.8,pp.921-928,1973.
【非特許文献2】飯田,伴野,“頭部の動きを許容した注視点検出装置と指示入力への応用,”電子情報通信学会論文誌,D-II,No.4,pp.520-527,1991.
【非特許文献3】伴野,鉄谷,岸野,“視線とマウスを併用する指示入力法の評価,”電子情報通信学会論文誌,D-II,No.6,pp.867-875,1993.
【非特許文献4】伴野,“視線検出のための瞳孔撮影光学系の設計法,”電子情報通信学会論文誌,D-II,No.6,1991.
【非特許文献5】伴野,岸野,“顔と瞳孔の3次元位置計測に基づく注視点検出アルゴリズム,”電子情報通信学会論文誌,D-II,No.5,pp.861-872,1992.
【非特許文献6】向井,三谷,外川,“画像処理による視線方向検出手法,”第2回画像センシングシンポジウム講演論文集,pp.135-138,1996.
【非特許文献7】青山,山村,“一台のカメラによる顔と視線方向の推定,”電子情報通信学会技術報告書,PRU.95-233,pp.131-136,1996.
【非特許文献8】堀場,李,井上,“画像処理による視線検出手法とその応用,”第40回システム制御情報学会研究発表講演会,pp.187-188,1996.
【非特許文献9】西内,柴田,高田,“画像処理による非接触視線検出法の研究,”日本機械学会論文集(C編),64巻620号,pp121-127,1998.
【非特許文献10】竹上,後藤,“角膜反射像と虹彩輪郭情報を併用した視線検出法,”電子情報通信学会論文誌,D-I,vol.J82,pp.1295-1303,1999.
【発明の開示】
【発明が解決しようとする課題】
【0017】
本発明は、眼球運動を用いた視線入力コミュニケーションシステムの開発を課題として、ビデオカメラを用いて患者の顔画像を取得し、画像処理により非接触的に患者の視線方向検出を行うことにより、表示画面上の意図する項目を選択するとともに、眼球運動と瞼の開閉動作による眼球機能のみで入力し、スイッチング操作で仮想ボードによる操作により、在宅勤務を行うようにした眼球運動を用いた視線入力コミュニケーションシステムの構築を目的とする。
【課題を解決するための手段】
【0018】
上記目的を達成するために、第1の発明では、被験者の顔全体をとらえた画像より被験者の目が開いている画像と閉じている状態の画像の各画素における値の差を計算し、この差を画素値としてもつ新しい画像を作成させて差画像を取得し、次いで該差画像から目の中心となる座標を求め、その座標から目と眉のテンプレートを登録し、該キャリブレーションを行う時、パソコン画面を数分割した領域を該被験者が各分割領域を見た方向別の画像を登録しておき、黒目の位置を画像処理手法により求め、視線方向検出のための各方向別の基準となる黒目と眉の相対距離を求めておくようにした。第1の発明を主体とする第2の発明では、高速テンプレートマッチングを用いて目の位置を連続的に追従しつつ、カメラのズームイン機能により目周辺を大きくとらえた画像で該キャリブレーションおよび視線方向を取得するようにした。
【0021】
第1の発明を主体とする第3の発明では該キャリブレーション後、数分割した領域の該パソコン画面上に、視線ポインタを眼球と瞼の開閉動作のみの機能でマウスの代わりに入力し、スイッチング操作により、仮想キーボードによる操作を可能とした。
【0023】
第1の発明を主体とする第4の発明では、起動させたいアプリケーションを含む区画された画面表示を2秒以上注視することにより、注視していた該区画の領域を拡大し、該被験者の視線が3秒間以上同一方向に向けられていると画面のスクロール速度が高速化する方式を採用し、該高速スクロールによって起動させたい該アプリケーションを該表示画面中央付近まで移動した後、意識的な瞬きを行うことにより、該視線ポインタを該表示画面中央付近に位置するように移動した
【発明の効果】
【0025】
本発明の眼球運動を用いた視線入力コミュニケーションシステムの開発により、ビデオカメラを用いて患者の顔画像を取得し、画像処理により非接触的に患者の視線方向検出を行うことにより、表示画面上の意図する項目を選択することができるコミュニケーションシステムが構築できた。さらに、眼球機能のみで入力し、汎用のPCソフトを使用してスイッチングで仮想ボードによる操作が可能になるとともに、ALS患者などの在宅勤務が可能となる。
【発明を実施するための最良の形態】
【0026】
次に、本発明に係る眼球運動を用いた視線入力コミュニケーションシステムの実施形態について、実施例1については、図1~図21を参照しながら詳細に説明する。
【0027】
図1は本発明に係る眼球運動を用いた視線入力コミュニケーションシステムのハードウェア構成図、図2は視線入力式コミュニケーションシステムの概要図、図3はコミュニケーションスクリーン(初期画面)の一例として、9分割画面を示す正面図、図4は図3のコミュニケーションスクリーンにおいて「テレビ」が選ばれた場合のコミュニケーションスクリーンの一例を図4(a)に示し、さらに図4(a)の画面で「チャンネルを変えて」を選択した場合のコミュニケーションスクリーンの一例(図4(b))を示した図、図5はシステムの処理手順を示すフロー図、図6は個人識別手順を示すフロー図、図7は入力画像における(a)は顔全体を示し(b)は目周辺領域を示す拡大図、図8は差画像を示す図、図9は目の位置検出を示す図、図10はサイズ別テンプレート画像を示す図、図11は画像サイズ別テンプレートマッチングを示す図、図12は登録されたテンプレート画像の例を示す図、図13はマッチング結果を示す図、図14は方向別画像相関法(method I)における9方向別テンプレート画像の一例を示す図、図15は黒画素領域検出法(method II)における高速テンプレートマッチングによる黒目追従の一例を示す図、図16はエッジ特徴点検出法(method III)における前処理の一例を示す図、図17はエッジ特徴点検出法(method III)におけるソーベル・フィルタによるエッジ検出の一例を示す図、図18はエッジ特徴点検出法(method III)における接点4点の検出の一例を示す図、図19は被験者に対する視線方向検出実験における実験画面を示す図、図20は被験者に対する視線方向検出実験における9方向視線検出結果の一例を示す図、図21は被験者に対する視線方向検出実験における12方向視線検出結果の一例を示す図である。
【0028】
さらに、図22は視線方向の取得から仮想キーワードの使用またはアプリケーションの使用までのフロー図、図23は視線ポインタ付近の画面領域が拡大されて画面中央に表示された画面図、図24はポインタを起動させたいアプリケーション近傍まで移動させる画面図、図25は表示画面中央のウインドウで位置確認を行い視線ポインタをアプリケーション上に移動した画面図、図26は瞼を意識的に3秒以上閉じると選択したアプリケーションが移動する画面図、図27は表示画面中央に起動させたいアプリケーションを選択するための選択決定領域を表示する画面図、図28は起動させたいアプリケーションに視線を向けると、そのアプリケーションがモニタ中央付近に位置するように表示画面をスクロールする画面図、図29はモニタ中央に常に選択決定領域が固定表示されており、起動させたいアプリケーションを選択決定領域内に移動するための画面図、図30は瞼を意識的に3秒以上閉じると領域内のアプリケーションが起動するための画面図、図31は初期画面、図32はアプリケーションを含む区画を注視し選択するための画面図、図33は選択された区画領域拡大した画面図、図34はアプリケーションを向け表示画面をスクロールするための画面図、図35は意識的な瞬きを行いポインタ表示する画面図、図36はポインタをアプリケーション上に移動させ起動するための画面図、図37は視線ポインタ近傍領域拡大法による測定結果図(1~5回目の平均測定値)、図38は画面スクロール法による測定結果図(1~5回目の平均測定値)、図39は分割領域拡大法による測定図(1~5回目の平均測定値)、図40はポインタ近傍領域拡大法による測定結果図(6~10回目の平均測定値)、図41は画面スクロール法による測定結果図(6~10回目の平均測定値)、図42は分割領域拡大法による測定図(6~10回目の平均測定値)である。
である。
【0029】
まず、ALS(Amyotrophic Lateral Sclerosis:筋萎縮性側策硬化症)は、国の特定疾患に指定される進行性神経疾患である。10万人に5人程度の有病率で、そのうち90%は中年期以降に発症している。男女比または性別比は、1:1.5でやや男性に多い。国内の患者は、4500人程度である。1874年、フランスのシャルコー医師によって最初に定義付けされて以来、現在に至っても、治療法も、進行をおさえる医学的対処法も無いと言われている。症状が進行するに伴い運動神経が侵され、四肢筋、嚥下筋、呼吸筋の筋力低下と萎縮が進み、通常発症から4~5年で完全な四肢麻痺となって、手足のみならず、身体全体の筋肉が麻痺し、言葉を発することもできなくなる。最終的には呼吸する筋肉も犯され、人工呼吸器がなければ生存できない状態になる。しかし、知能、感覚、眼球運動は正常であり、知的な創作活動は可能である。アメリカではメジャーリーグ野球選手のルー・ゲーリックが罹患したことからゲーリック病とも呼ばれており、また、イギリスの有名な宇宙物理学者ホーキング博士も30年来の患者である。
【0030】
ALS患者20は、手足の麻痺のため介護が必要となるが、病状の進行に伴い言葉が話せなくなってしまうと、医療従事者や介護者、家族とのコミュニケーションを図ることも困難になってくる。それゆえ、ALS患者20とのコミュニケーションが円滑にとれず、介護量が多くなり入院を断る医療機関もある。このため患者のQOL(Quality・of・Life)を向上させるためのコミュニケーション機器の開発が望まれている。意思や情報の伝達に障害をもった人々が、残存機能を活用して、より円滑にコミュニケーションがおこなえるよう支援する器具や機器を総称してコミュニケーションエイドという。肢体不自由者が利用するコミュニケーションエイドの種類は、文字盤のような簡単な道具から、種々の工学技術を応用したハイテク機器まで広範囲に及ぶ。
【0031】
本発明では、このようなALS患者が、眼球運動を用いた視線入力コミュニケーションシステムの開発を目指した。ビデオカメラを用いて患者の顔画像を取得し、画像処理を用いて非接触に患者の視線方向検出を行う。検出された視線方向を用いて、患者がディスプレイ内のどの位置を見ているか識別し、それによって意図する項目を選択することができる視線入力コミュニケーションシステムの構築を目的とした。
【0032】
図1は本発明に係る眼球運動を用いた視線入力コミュニケーションシステムのハードウェア構成図である。図1において、パソコン(以下、PCと呼び、表示画面11と演算処理装置18の両方の機能を含む)の表示画面11の上部に取り付けられたビデオカメラ12で取り込んだALS患者(使用者または被験者)20の顔面の映像から、演算処理装置18によりALS患者20の目の位置を決定する。視線方向の算出は、事前に決められているPC上の基準点を見ている時のいくつかの点を初期値として記憶する。また、演算処理装置18により決定された目の位置と初期値として記憶している目の位置から眼球の方向を決定し、これらに基づいて視線の方向を算出する。算出された視線方向は演算処理装置18に与えられる。画像取り込み装置14を経由して得られた小型のビデオカメラ12の画像から、患者の頭の位置ずれが検出された場合には、演算処理装置18は頭のずれを補正するためにビデオカメラ12の上下左右の補正値を、カメラ制御装置16に送り、その補正値分の移動をビデオカメラ12に与える。演算処理装置18は、視線方向に対応した方向に、PC上に表示されているカーソルを移動する。しかも、意識的に瞬きまたは注視をすることで、通常のPC用のマウスを使ってクリックするのと同じ機能を、目でクリックしてコマンドを送信することが可能である。また、画像取り込み装置14によって得られた計算結果より、ALS患者20の見ている領域を推定し、その領域の色を変更し表示(出力)することができる。室内の照明条件は通常の蛍光灯による明るさのみで十分であり、赤外線や特別な照明などを設置する必要はない。
【0033】
図2は視線入力式コミュニケーションシステムの説明図であり、本システムは、主として一台のPCとビデオカメラ12により構成される、非接触型コミュニケーションシステムである。ALS患者20等を対象としたシステムであり、ベッド上で使用されることが想定されている。PC、ビデオカメラ12共に市販の製品を用いており、比較的安価なシステムを実現している。ALS患者等は、PCの表示画面11上の区画された領域を目で注視することにより、意図する項目を選択することができる(図2参照)。表示画面11は、設置が容易である液晶ディスプレイを用いると良い。また、システムの使用開始時にキャリブレーションを行う必要がある。キャリブレーション(方向基準画像の登録)では、表示画面11の区画を順次点滅(他と異なる色に変更)させて行き、ALS患者20にそれを目で追ってもらう。その時の眼球の位置などを記録し、方向決定用の基準としている。
【0034】
図3はコミュニケーションスクリーン(初期画面)の一例として、9分割画面を示す正面図である。本発明は、特に重度のALS患者20も対象としているコミュニケーションシステムである。表示画面11上は、図3のように9分割、または12分割されており、各分割された領域には、ALS患者20にとって重要とされる表現が提示されている。この画面を、以下コミュニケーションスクリーンと呼ぶ。この提示されている意思項目は、ALS患者20の家族や病院に対して行ったアンケート結果を参考にして、決定されている。ALS患者20は、意図する項目を目で注視し選択することになる。2秒以上の注視が行われた時点で、PCは注視であると認識し、その項目の選択を行う。選択された項目は、あらかじめ登録しておいた音声で読み上げるようにしてある。9分割や12分割では、患者にとって必要とされる全ての表現を提示することはできないが、項目の下に予備項目を用意することで、より多くの表現の提示が可能となる。使用頻度が高いと考えられる、「はい」、「いいえ」は初期画面に表示されている。
【0035】
図4は図3のコミュニケーションスクリーンにおいて「テレビ」が選ばれた場合のコミュニケーションスクリーンの一例を図4(a)に示し、さらに図4(a)の画面で「チャンネルを変えて」を選択した場合のコミュニケーションスクリーンの一例(図4(b))を示した図であり、例えば、初期画面で「テレビ」という項目を選んだとすると、次の画面には図4(a)のように、TVに関する項目が表示される。なお、「戻る」と「メニューへ」の二つの項目に関しては、初期画面以外において常に表示されるようになっている。そして、ここで「チャンネルを変えて」を選択すると、図4(b)が表示される。通常TVのチャンネルは12チャンネルまで用いることが多いので、「次へ」を選択すると7から12までが表示される。患者が、この中から希望する番号(ここでは5)を選択すると“チャンネル5に変えてください。”と音声で読み上げるようになっている。
【0036】
図5はシステムの処理手順を示すフロー図である。まず、顔全体をとらえた画像より、ALS患者20(または被験者)に目の開閉をしてもらい、差画像により目の位置を検出(100)する。つぎに、複数のALS患者20が一つのシステムを共用する場合は、テンプレートマッチング(画像相関)を用いた個人認証(102)を行い、個人ごとに必要な設定を選択することができる。目の位置検出後、カメラのズームイン(104)機能により、目周辺を大きくとらえた画像を取得する。次に、目と眉のテンプレートを登録(106)し、キャリブレーション(108)を行う。この時、方向別に画像を登録しておき、黒目の位置等を以後提案する画像処理手法により求め、視線方向検出のための各方向別の基準となる値(黒目と眉の相対距離)を求めておく。キャリブレーションの後、入力される画像に対して、提案手法により視線方向検出(110)を行う。キャリブレーション時に得たデータ(黒目位置等)と入力画像より得られたデータを比較することにより、視線方向は検出される。これにより、ALS患者20は画面表示11内の意図する項目を目で見つめることにより、選択することが可能となる。ALS患者20の見ている領域は、色を変えて出力することにより確認できる。意図する項目を選択する時は、その項目の領域を2秒以上注視することにより可能となる。もし、選択された項目(112)の下に予備項目が存在する場合は、画面が切り替わり予備項目が表示される。最終的に選択された項目は、音声で項目の内容を読み上げる(114)ようにしてある。
【0037】
以上に述べた画像処理手法を用いて、個人認証(102)を行う。個人認証(102)を行う目的としては、視線検出においては個人差があるため、各個人のデータを登録しておき、ALS患者20ごとに個人認証を行い瞬時に被験者20のデータを取り出すことである。また、セキュリティーの分野においても、顔画像による個人認証(102)は、今後重要な役割を果たすと考えられる。
【0038】
図6に、個人認証の手順を示した。被験者は、目の開閉が行えるものとする。まず、目の開閉を行い、差画像により目の位置検出(120)を行う。ここで、あらかじめ登録されているテンプレート画像によりマッチング(122)を行い、個人識別(124)する。各個人に対して、暗証番号が決められており、目の開閉で暗証番号(126)を入力する。ここで言う暗証番号とは、目の開閉の順番であり、例えば「右、左、左、右」のように交互に目の開閉を行う。暗証番号が正しく入力されれば、個人認識は完了(128)となる。
【0039】
テンプレートマッチングを用いて顔画像認識を行う場合、画像内に含まれる領域が髪などを含むと、時間と共に変化しやすく、顔画像認識が困難となってくると考えられる。そこで、テンプレート画像内に含む領域を、「目+眉」、「目+眉+鼻」、「目+眉+鼻+口」、「目+眉+鼻+口+頬輪郭」の4つのパターン(図10)を用意して、マッチングを行った。「目+眉」および「目+眉+鼻領域」を含んだテンプレートマッチングにおいて、本人に対する相関値が、0.99を超える高い値であることが確認された(図11)。また、「目+眉+鼻+口」、「目+眉+鼻+口+頬輪郭」を含んだテンプレートマッチングについては、相関値は最も本人が高くなっており有用ではあるが、残りの2つと比べて相関値が低かった。よって、「目+眉」または「目+眉+鼻領域」を含んだテンプレートマッチングが最適と考えられる。
【0040】
「目+眉+鼻領域」を含んだテンプレート(標準画像)を用いて、10人の被験者20に対して、一人につき10枚のテンプレート画像(80×60)を用意し、テンプレート画像と各個人ごとの入力画像とのマッチングを行い、相関値より個人識別を行った結果、個人の識別が可能であることが判明した。テンプレートマッチングと、目の開閉による暗証番号の入力により、高い確率で個人の認証が可能であった。
【0041】
本発明においては、ビデオカメラ12より取り込んだ画像をPC内で処理することにより、ALS患者20の視線方向の検出を行い、コミュニケーションシステムの操作に利用する。特に、重度のALS患者20を対象としたコミュニケーションシステムの構築を目標としており、ALSの症状により、ALS患者20の頭は大きくは動かないものと想定して視線方向検出を行うのが妥当である。また、病院内や自宅室内で使用することを目的としており、通常の蛍光灯等の照明条件下で適切に動作することも重要となってくる。本発明においては、照明条件は通常の室内の蛍光灯による明かりのみによって視線検出が行えることが望ましいと考え、赤外線の利用や特別に蛍光灯等の光源を増やすようなことはしなかった。照明条件を設定しない報告(非特許文献6)がされているが、検出精度の低さに問題が残る。
【0042】
本発明の視線方向検出精度としては、PCの表示画面11内を数分割し、各領域を正しく選択できることを目的としている。これらの条件を実現するための視線方向検出手法として、テンプレートマッチングを用いた方向別画像相関法、黒画素領域検出法および虹彩領域のエッジに着目したエッジ特徴点検出法の3つの方法を検討した。眼球には、固視微動と呼ばれる細かい動きがあるため、一点を注視しているときでも、視線はその方向から0.3度程度ずれることが知られている(山田, 福田,“画像における注視点の定義と画像分析への応用,”電子通信学会論文誌,D-II,No.9,pp.1335-1342,1986.)。しかし、今回のシステムにおいて、指定された領域内の注視においては、0.3度のずれは視線方向検出に誤差を生むとは考えにくく、考慮しないことにした。視線方向検出手法は、方向別画像相関法(methodI)、黒画素領域検出法(methodII)およびエッジ特徴点検出法(methodIII)の3つの手法について検討した。
【0043】
方向別画像相関法(methodI)の場合、キャリブレーション時に、目周辺画像を方向別にテンプレートとして登録しておいた(図14)。目の位置は、ピラミッド構造を用いた高速テンプレートマッチングによって検出した。検出された目の位置に、登録しておいた方向別テンプレートを用いてマッチングを行い、最も高い相関を与える方向画像より視線方向を決定した。
【0044】
黒画素領域検出法(methodII)においては、瞳孔を含む虹彩領域(以下、虹彩領域と略記)をテンプレート画像として登録し(60×60pixel)、目の位置を拡大した画像(入力画像)に対してテンプレートマッチングを行い、虹彩領域の位置を決定した(図15)。
【0045】
エッジ特徴点検出法(methodIII)においては、眼球内の虹彩領域(黒目)と白目領域及び瞼との輝度の変化に着目し、エッジ検出を用いて視線方向を検出した。エッジ検出を容易にするために、画像強調、メディアン・フィルタによる平滑化を行い、ソーベル・フィルタによりエッジの検出を行った。
【0046】
頭部の位置補正を行うことによって、methodII,methodIIIにおいて検出精度が大幅に改善された(図20および図21)。MethodIにおいては、マッチングの相関値により視線方向検出を行っているため、頭部位置補正は困難であるが、9,12方向共に平均正答率は80%を超えている。
【0047】
重度のALS患者20は、手、口等が自由に動かせなくなり、第3者との間でコミュニケーション障害に陥る。ALS患者20の残存機能のひとつである、眼球運動を用いたコミュニケーション支援システムの構築が本発明の目的である。また本発明では、ALS患者20に対する負担が最も少ない、非接触型コミュニケーションシステムの開発を目的とした。市販のビデオカメラ12とPCのみを用いることにより、安価なシステムの構築も目的である。
【実施例1】
【0048】
実施例1では、ビデオカメラ12によりALS患者20の代わりに学生を被験者20として顔画像を撮影し、PCに取り込み種々の画像処理を行った。入力画像のサイズは、320×240pixelであり、256階調のRGB画像である(図7)。ビデオカメラ12は、ズーム機能を有しており、取り込み画像の拡大率は自由に設定することができる。
【0049】
目の位置検出の方法を、以下に示した。入力された画像内における目の位置は、瞼の開閉に着目し、連続画像間で輝度の変化の著しいところを求めることにより決定した。次に、記録された画像と過去に記録された画像を比較した。すなわち、各画素における値の差を計算し、この差の値を画素値としてもつ新しい画像を生成させた。以後、これを差画像とよぶ。
【0050】
この差画像を用いた目の位置検出手順を説明する。
(1)画像を垂直方向にY分割する。上部からm番目(1≦m≦Y)の分割領域を、水平分割領域Hmと表現する(図8)。
(2)水平分割領域Hm上の画素値を合計し、それらをHm#SUMとする。
(3)最も大きなHm#SUMを与える水平分割領域のm番目の値を、目の垂直位置として採用する。
(4)採用された水平分割領域Hm内で、2つの大きな値を持つ連続した区域を検出する。この際、値が0でない連続区域を採用することも考えられるが、検出時のビデオカメラ12等の雑音の影響を避けるために、ある値以上をもつ連続区域を採用した。
(5)それぞれの区域の中心または中心をn1,n2として、これを目の水平位置として採用した。以上の工程により、得られた位置(n1,m)および(n2,m)に被験者20の目が存在することになる(図9)。
【0051】
差画像によって目の位置が発見された後、高速テンプレートマッチングを用いて、目の位置を連続的に追従した。この操作は、目の位置追跡に必要な画像処理である、ピラミッド構造を用いた高速テンプレートマッチングを用いて行った。目開閉の判定は、2値化法を用いた。
【0052】
以上に述べた画像処理手法を用いて、個人認証を行った。個人認証を行う目的としては、視線検出においては個人差があるため各個人のデータを登録しておき、被験者20ごとに個人認証を行い、瞬時に被験者20のデータを取り出すことである。また、セキュリティーの分野においても、顔画像による個人認証は、今後、重要な役割を果たすと考えられる。
【0053】
すでに前述したが、図6による個人認証の手順を示す。まず、目の開閉を行い、差画像により目の位置検出(120)を行った。ここで、あらかじめ登録されているテンプレート画像によりマッチング(122)を行い、個人識別を行った。各個人に対して、暗証番号が決められており、目の開閉で暗証番号(126)を入力する。ここで言う暗証番号とは、左右の目の開閉の順番であり、例えば「右、左、左、右」のように交互に目の開閉を行うことにより入力した。暗証番号が正しく入力されれば、個人認識は完了となる。
【0054】
テンプレートマッチングを用いて顔画像認識を行う場合、画像内に含まれる領域が髪などを含むと、時間と共に変化しやすく認識が困難となってくることが考えられる。そこで、テンプレート画像内に含む領域を、「目+眉」、「目+眉+鼻」、「目+眉+鼻+口」、「目+眉+鼻+口+頬輪郭」の4つのパターンを用意して、マッチングを行った。サイズ別テンプレート画像例を図10に示した。被験者20は6人で、あらかじめ取得しておいた画像に対して、4つのパターンのサイズ別テンプレート画像を用いてマッチングを行った。図11にマッチング結果を示した。
【0055】
「目+眉」および「目+眉+鼻」領域を含んだテンプレートマッチングにおいて、本人に対する相関値が、0.99を超える事が確認された。また、「目+眉+鼻+口」、「目+眉+鼻+口+頬輪郭」を含んだテンプレートマッチングについては、相関値は、本人が最も高くなっており有用ではあるが、「目+眉」および「目+眉+鼻」領域を含んだテンプレートマッチングと比べて、相関値が低いことがわかった。よって、「目+眉」または「目+眉+鼻」領域を含んだテンプレートマッチングが最適と考えられる。
【0056】
画像サイズ別テンプレートマッチング認識実験において最適とされた「目+眉+鼻」領域を含んだテンプレートを用いて、個人の識別が可能であるかを実験によって検討した。10人の被験者20に対して、一人につき10枚のテンプレート画像(80×60)を用意し、入力画像に対してマッチングを行い、相関値より個人識別を行った。図12に、登録されたテンプレート画像の例を示した。
【0057】
以上に示したような、テンプレート画像(80×60)と入力画像(320×240)とのマッチングによる、個人差比較結果の例を図13に示した。縦軸は、入力画像とテンプレート画像との相関値であり、1に近い程2つの画像は相似であるということになる。また横軸は、用意されたテンプレート画像100枚(10枚/人、10人分)である。あらかじめ登録しておいた各個人に対して、10枚のテンプレート画像と各個人ごとの入力画像とのマッチングを行った。図13の結果から分かるように、今回のテンプレートマッチングにおいて、本人であると認識することは可能であった。テンプレートマッチングと、片目の開閉による暗証番号の入力によって、より高い確率で個人の認証が可能であるという結果が得られた。
【実施例2】
【0058】
実施例2では、ビデオカメラ12より取り込んだ画像をPC内で処理することにより、実施例1同様にALS患者20の代わりに学生に被験者20として視線方向の検出を行い、コミュニケーションシステムの操作に利用した。特に、重度のALS患者20を対象としたコミュニケーションシステムの構築を目標としており、ALSの症状により患者20の頭は動かないものと想定して視線方向検出を行うのが妥当である。また、病院内や自宅室内で使用することを目的としており、通常の蛍光灯等の照明条件下で適切に動作することも重要となってくる。
【0059】
本発明の視線方向検出精度としては、PCの表示画面11内を数分割し、各領域を正しく選択できることを目的としている。これらの条件を実現するための視線方向検出手法として、テンプレートマッチングを用いた方向別画像相関法、黒画素領域検出法および虹彩領域のエッジに着目したエッジ特徴点検出法の3つの方法を検討した。眼球には、固視微動と呼ばれる細かい動きがあるため、一点を注視しているときでも、視線はその方向から0.3度程度ずれることが知られている(山田,福田,“画像における注視点の定義と画像分析への応用,”電子通信学会論文誌,D-II,no.9,pp.1335-1342,1986.)。しかし、今回のシステムにおいて、指定された領域内の注視においては、0.3度のずれは視線方向検出に誤差を生むとは考えにくく、考慮しないことにした。
【0060】
方向別画像相関法(methodI)の場合、キャリブレーション時に、目周辺画像を方向別にテンプレートとして登録しておいた(図14)。目の位置は、ピラミッド構造を用いた高速テンプレートマッチングによって検出した。検出された目の位置に、登録しておいた方向別テンプレートを用いてマッチングを行い、最も高い相関を与える方向画像より視線方向を決定した。
【0061】
黒画素領域検出法(methodII)においては、瞳孔を含む虹彩領域(以下、虹彩領域と略記)をテンプレート画像として登録し(60×60pixel)、目の位置を拡大した画像(入力画像)に対してテンプレートマッチングを行い、虹彩領域の位置を決定した(図15)。計算時間短縮のために、ピラミッド構造(高木,下田,“画像解析ハンドブック,”東京大学出版会,1978.)を用いたテンプレートマッチングを行った。この時、頭部のわずかな動きによって虹彩領域の位置が変化し、視線方向検出に誤差が生じてくるため、眼球運動に対して変化の少ない眉左上に基準点をとった。従来は、この基準点の位置を、目と眉を含む全体を対象としていたため、眼球の動きに合わせて基準点が動いてしまうという問題を残していた。この改良により、基準点と虹彩の相対距離の変化によって、視線方向を検出することができた。
【0062】
図15(b)において、黒目を含んだテンプレートの左上端座標を(X,Y)とした。眉毛付近に取ったテンプレートの左上端座標を(X,Y)とする。この2点間の距離を(L,L)とすると、以下のような式が得られる。
【0063】
【数1】
JP0003673834B2_000002t.gif

【0064】
キャリブレーション時に登録しておいた、方向別のL(n),L(n)(0<n≦N:Nは分割数)と比較し、最小の重みつきユークリッド距離を与えるn番目の項目を視線方向として採用した。しかし通常、我々が何かを目で追う時には、眼球運動ではなく頭部を動かして対象物を目で追っている事が多いと思われる。よって、表示画面11上の区画された領域を追う時も、自然と頭が動いてしまう傾向にあった。本発明では重度の身障者を対象としており、頭部の大きな動きにより入力画像内から目や眉がはみ出してしまうことまでは考慮する必要はないが、頭部の微妙な動きによって視線方向の検出に誤差が生じる事は十分に考えられる。そこで、L,Lに以下の補正項を加えることにより、頭部の移動量を相殺した。補正項は以下のようにして求めた。
【0065】
【数2】
JP0003673834B2_000003t.gif

【0066】
ここで、Xc、Ycは定数であり、実験的に求めるものである。なお(Xbo、Ybo)は、図15(a)における眉毛左上基準点の初期座標で、(Xb、Yb)はその時点における入力画像の眉左上座標となる。
【0067】
エッジ特徴点検出法(methodIII)においては、眼球内の虹彩領域(黒目)と白目領域及び瞼との輝度の変化に着目し、エッジ検出を用いて視線方向を検出した。エッジ検出を容易にするために、画像強調、メディアン・フィルタによる平滑化を行い、ソーベル・フィルタによりエッジの検出を行った。画像化の過程で重畳される雑音を除去ないしは低減する手法として、平滑化(smoothing)がある。雑音とは本来緩やかに変化する部分における望ましくない急峻な濃度値の変化であり、急激な変化を滑らかに変換する平滑化は雑音を低減する効果がある。平滑化には、幾つかの方法が提案されているが、今回はメディアン・フィルタ(median filter)を用いた。メディアン・フィルタは局所平均化(長谷川,“画像処理の基本技法<技法入門編>,”技術評論社,1986.)よりも、(1)雑音除去の効果が大きい、(2)小さな変動を平滑化する、(3)エッジのボケの程度が少ない等の利点が挙げられる。
【0068】
画像上における、エッジ検出(edge detection)を目的とした画像処理手法で、ロバーツ(Roberts)やプレヴィト(Prewitt)等(土屋,深田,“画像処理,”コロナ社,
1990.)も利用できるが、今回はソーベル(Sobel)・フィルタを用いて虹彩領域と白目及び瞼との接辺の検出を行った。ディジタル画像では間隔の最小は1なので、微分の代わりに差分が用いられており、差分の絶対値はエッジの強さ、言い換えるとエッジらしさを数値化したものである。
【0069】
目と眉を含んだ入力画像(320×240 pixel)より、目周辺領域の画像をテンプレートマッチングにより抜き出した。この時の画像サイズは160×80pixelである(図16(a))。まず、エッジ検出を容易にするために、前処理として画像を強調し、その後3×3pixelのメディアン・フィルタを用いてエッジ情報を保存した平滑化を行い、虹彩領域と白目領域及び瞼との輝度の差を明確にした(図16(b))。この段階でエッジ検出を行うと、黒目と瞼下部の間に光の反射によって白い境界が作られてしまい、検出が困難となる。そこで、各画素を全て3倍とするコントラストの変換によって、肌色や白目領域はすべて白く変換した(図16(c))。また、肌色領域も白く変換することで虹彩と瞼との境界がより強調され、エッジ検出が容易となった。
【0070】
次にソーベル・フィルタを水平方向、垂直方向に各々分けて用い、虹彩の左右両端及び、虹彩と瞼の接辺を検出した。この時、ソーベル・フィルタの出力値がプラス(白から黒)となる場合を青色で出力し、同様に出力値がマイナス(白から黒)となる場合を緑色で出力した(図17)。これにより、虹彩の左右、虹彩と瞼の接辺の上下が区別される。図17(a)より、斜め方向に近傍する10 pixel程度の画素の合計が最も高い値を与える座標を、虹彩の左右両端X,Xとして採用した。次に図17(b) に対して、既に得られたX,Xの中点に着目し、この中点の垂直方向上に、水平方向に近傍する10pixel程度の画素の合計が最大値を与える点を、瞼との接点Y,Yとして採用した(図18)。ここで、黒画素領域検出法と同様に、眉毛を基準とした高速テンプレートマッチングを行い、得られたX,Yとの距離LxR,LxL,LYT,LYBを求め、視線方向を検出した。
【0071】
4人の被験者20に対して、視線方向検出実験を行った。4人の内訳としては、男性3名(1名は眼鏡装着)、女性1名となっている。被験者20の目と表示画面11の距離は75cm、ビデオカメラ12との距離は85cmとした。室内の照明条件は通常の天井に備え付けられた蛍光灯による明るさで、実験中に大きな変化は無かった。表示画面11内を9分割、12分割に区画し(図19)、各領域を見つめた時の眼球の動きをもとに、3種類の提案手法において、正しく視線方向の検出が可能であるかの確認を行った。まず、表示画面11の中央を注視してもらい、基準となる画像を記録した。次にキャリブレーションとして、表示画面11内の区画を順次点滅(他と異なる色に変更)させて行き、それを目で追ってもらい、方向決定用の基準となる画像の記録を行った。その後、約50回ランダムに区画を点滅させて目で追う作業を繰り返してもらい、その時の顔画像と目の座標、視線方向を記録した。実験で得られた画像に対して、先に提案した3つの手法を用いて視線方向検出を試みた。3提案手法に対して再現性を期すために、全く同じ画像を用いることにした。
【0072】
頭部の位置補正を行うことによって、methodII,methodIIIにおいて検出精度が大幅に改善されたことが、図20および図21より分かる。MethodIにおいては、マッチングの相関値により視線方向検出を行っているため、頭部位置補正は困難であるが、9,12方向共に平均正答率は80%を超えている。被験者Tについて見てみると、9,12方向共に補正項を加えなくても、平均正解率は3つの手法すべてにおいて90%を越えていた。また、頭部の位置補正により、視線検出が正しく行えることが確認できたので、今後はシステムの対象を広げていくことが可能ではないかと考えられる。次に、提案手法ごとに考察を行った。方向別画像相関法(methodI)は、図20(a)、図21(a)において示されるように、12方向の方が9方向より、わずかに視線検出精度が良いことが分かった。誤認識を見てみると、全てにおいて左右、上下のいずれか一マス誤って認識している場合がほとんどである。頭部の位置補正を行わずに、9方向、12方向共に85%以上の精度で視線方向の検出が行われている。MethodII,IIIと比べて、頭部の位置補正が困難なため、頭部位置補正後の正答率はあまりよくないが、補正をしなくても85%以上の正答率を示している。黒画素領域検出法(methodII)は、9方向、12方向共に頭部位置の補正を行うことにより、正答率は90%以上となり改善されていることが分かる。この手法における、誤認識の大半は垂直方向となっている。垂直方向は、水平方向に比べて、眼球が瞼に隠れている領域が多いこともあり、黒画素領域(黒目)をテンプレートマッチングで追従するのが困難であると考えられる。エッジ特徴点検出法(methodIII)は、黒画素領域検出法とほとんど変わらない結果となっている。
【実施例3】
【0073】
次に、実施例3に基づき図22~図42を参照して説明する。なお、図5から図18までの説明は前述しており、実施例3では、差画像による目の位置検出から視線方向の決定までのシステム処理手順を簡単に再説明を行った後、前記視線方向の決定以降の、表示画面11上の視線ポインタをマウスの代わりに眼球機能(眼球運動と瞼の開閉動作のみ)を入力し、スイッチング操作により、いわゆる仮想キーボードによる操作が可能となるようにするため、ALS患者のような重度肢体不自由者の眼球機能を用いた在宅勤務を可能とする本発明について説明する。
【0074】
特に、ALS患者20は、四肢に障害を持っているため、PCを操作するような入力装置を利用する手段を有しない。言葉を発することが困難であるので音声入力によるPC操作も不可能である。そこで、本発明ではALS患者20の残存機能である眼球と瞼の開閉運動をPC操作の入力に応用することにより、汎用のPCソフトを使用して自在なPC操作環境を実現し、ALS患者20のような重度肢体不自由者の在宅勤務が可能になった。なお、ここではALS患者20について述べたが、ALS患者20に限定する必要はなく、ALS患者20に類似した重度肢体不自由者についても同様の対応が可能となる。
【0075】
このように、本発明では、ALS患者20の眼球機能を使用するのみで在宅勤務を行うことを主眼にしている。一般的にマウスを使用してPCに送られる入力信号を、本発明では、眼球と瞼の開閉運動により作成し送信した。これにより、表示画面11上の視線ポインタをマウスの代わりに眼球機能(眼球運動と瞼の開閉動作のみ)を入力し、スイッチング操作で、いわゆる仮想キーボードによる操作が可能となる。すなわち、重度のALS患者20が眼球運動および瞬きしかできないのであれば、ビデオカメラ12で逐次取り込む画像(入力画像)中で変化するのは眼球周辺のみである。そこで、入力画像で適切に設定した基準座標と眼球運動により変化する座標の相対距離と、入力画像と方向別登録画像の濃度誤差から視線方向を決定する。処理手順とその詳細な説明は図5から図21までに詳細に記載してあるものと同様であるが、簡単に概要を説明しておく。
【0076】
まず、背景を含んだ重度のALS患者20の顔画像から目の領域だけを抽出して拡大する。次に、黒目を含んだ120×80画素の領域をテンプレートして登録する。テンプレート登録後、目の位置の自動追跡が可能となる。重度のALS患者20に瞼の開閉動作を5秒間行ってもらい開閉判別のための閾値を登録する。開閉閾値登録後、瞼の開閉状態の判別が可能となる。続いて、キャリブレーション後、入力画像に画像処理を施し、解析後得られた結果とキャリブレーション時に登録したデータを比較して、視線方向を検出する。視線方向の入力には瞼の開閉動作を用いた。瞼が閉じている状態が一定時間以上あると、意識的な瞬きと判断して瞼を閉じる直前の視線方向が採用される。
【0077】
その後の動作を引き続き、図22を用いて説明する。図22は視線方向の取得から仮想キーボードの使用またはアプリケーション(以下、アプリケーションとはPC内部にインストールされている各種ソフトウェアのことを指す)の使用までフロー図である。
【0078】
図22に示すように、視線方向決定(200)を行った後、視線ポインタを移動(202)し、目標に到達したかどうかの判断を行い(204)、もし目標に到達していない場合は、再度視線ポインタの移動(202)を行う。そして、もし目標に到達していたと判断された場合は、眼の意識的な瞬き(206)を行い、その状態をコマンド送信(208)する。コマンド送信したものは、仮想キーボードの使用(210)とアプリケーションの使用(212)のいずれかに使用されるか、または両方を併用して使用することもできる。
【0079】
仮想キーボードの使用例を簡単に述べる。まず、目標の文字の領域まで視線ポインタを移動させる。そして、目標の文字を入力するために意識的な瞬きを行う。すると目標の文字は仮想キーボードを介して目標の入力場所に文字が入力される。
【0080】
次に、アプリケーションの使用例を簡単に述べる。例としてディスクトップ上にマイクロソフト社のInternet Explorer(以下IE)を起動するまでの手順を示す。まず、視線ポインタをIEのアイコン上に移動させる。そして、IEを起動させるために意識的な瞬きを行う。するとIEのアイコンは視線ポインタを介して起動コマンドを受け取り起動する。
【0081】
まず、視線ポインタを用いた表示画面11上のアプリケーション利用方法について述べる。本発明で提案する手法は、(1)ポインタ近傍領域拡大法、(2)画面スクロール法、(3)分割領域拡大法の3手法である。この3つの手法は、起動させたいアプリケーション近辺での操作性、選択までに要する時間がマウスポインタに比べて劣るという欠点を克服することを主な目的としている。
【0082】
まず、ポインタ近傍領域拡大法について述べる。ポインタ近傍領域拡大法の場合、ポインタが移動を行わない視線の先にある領域(画面中央領域)に、ポインタ近傍の領域を表示させ(図23)、この表示画面11でポインタの現在位置と起動させたいアプリケーションの位置を確認しながらポインタを操作(図24、図25)できるようにした。これにより、通常のマウスでポインタを操る作業と同様の微細な位置調整が実現できることになる。さらに、ポインタ近傍領域を拡大して画面中央に表示させることにより、視覚的にも視線ポインタとアプリケーションの位置が明確となった。そして、起動させたいアプリケーション上に視線ポインタが到達した後に、3秒以上の意識的な瞬きを行うことで、アプリケーションが起動するようにした(図26)。
視線ポインタの移動時間は、移動距離に比例して大きくなり、マウス操作に比べてその差が顕著に現れてくる。そこで、ALS患者20が同一の方向に3秒間以上視線を向けると、視線ポインタの移動速度が高速化するようにした。これにより、遠く離れた位置への移動に要する時間の短縮が図れた。
【0083】
次に、画面スクロール法では、視線ポインタの移動が行われない画面中央まで、カーソル領域拡大法とは逆に視線ポインタではなく起動させたいアプリケーションを移動させて選択する。表示画面11の中央には、起動させたいアプリケーションを選択するための領域(選択決定領域)を設け(図27)、その領域内にそのアプリケーションを移動させる(図28)。また、表示画面11はスクロール式で常に画面全体がモニター上に表示されており(図29)、カーソル領域拡大法に比べて使用できる画面領域が広くなっている。そして、起動させたいアプリケーションが選択領域上に到達した後に、3秒以上の意識的な瞬きを行うことで、アプリケーションが起動するようにした(図30)。
さらに、本手法では起動させたいアプリケーションを表示画面11中央に移動させるため移動時間はさほど問題とならない。しかし、アプリケーションの配置は通常画面の淵側が多いという現状も考慮して、ポインタ近傍領域拡大法と同様に、使用者の視線が3秒間以上同一方向に向けられていると画面のスクロール速度が高速化する方式を採用した。
【0084】
最後に、分割領域拡大法では、予め初期画面を9分割表示させておき(図31)、ALS患者20が起動させたいアプリケーションを含む区画を注視して選択することにより行われる(図32)。視線ポインタの移動時間問題を解決するために、起動させたいアプリケーション近傍領域のみを抽出しモニター全体に拡大表示させ(図33)、表示画面11の高速スクロールによって起動させたいアプリケーションを表示画面11中央付近まで移動させた(図34)。起動させたいアプリケーション近傍領域でのポインタ操作についても、そのアプリケーションがほぼ表示画面11中央に位置し、近傍領域が9倍に拡大された表示画面11上でポインタを表示させ作業を行うため、正確な移動操作が可能である(図35、図36)。
【0085】
以下に、分割領域拡大法の処理手順を示す。
(1)9区画に分割された初期画面が表示される。
(2)起動させたいアプリケーションを含む区画を注視する。注視時間が2秒以上であると、注視していた区画内の領域が拡大される。
(3)起動させたいアプリケーションに注視を向けると、表示画面11がそのアプリケーションをモニタ中央付近に位置するようにスクロールする。
(4)起動させたいアプリケーションがモニター中央付近まで移動した後、意識的な瞬きを行うと視線ポインタが表示画面11中央に表示される。
(5)視線ポインタを起動させたいアプリケーション上まで移動させ、瞼を3秒以上5秒未満意識的に閉じると目的アプリケーションが選択され起動する。但し、拡大前の表示画面に戻る場合は、5秒以上意識的に閉じる。
【0086】
視線ポインタの実用性を検証するため、7人の健常者に対して以下のような実験を行った。各被験者20に画面上のIEを、各手法を適用した視線ポインタにより起動してもらう。各被験者20に対して各手法で10回行い、IE起動の成否とIE選択までの経過時間の測定を調査した(図37、図38、図39)。我々が普段PCを使用する場合、頻繁に起動させるアプリケーションは、そのショートカットを画面の左側に作成して表示させていることが多い。よって、アプリケーションの起動作業だけを考えるのであれば、視線ポインタの移動範囲は画面左側のみに限定できる。そこで、視線ポインタの初期表示位置を表示画面11中央付近、IEの表示位置を表示画面11左上端付近に設定して調査を行った。本調査は、視線ポインタの問題点である、視線ポインタ移動時間のロス、起動させたいアプリケーション近傍領域での操作性の低さが、提案手法により改善されたかどうかの判別を目的としている。
【0087】
【表1】
JP0003673834B2_000004t.gif

【0088】
表1は視線ポインタによるIE起動の成否を表す。表1により、本発明で提案する3手法を用いた視線ポインタでIEを起動させることは可能であると確認された。被験者20の多くが視線ポインタの使用が初めてであったことを考慮すると、提案する視線ポインタの実用性は高いといえる。視線ポインタの課題であった操作性については、誤作動を起こすことなく被験者20が意図する方向に移動していたことより、正確性が高いうえに直感的に分かり易く良好であったといえる。IE近傍領域での操作は、使用回数が増すにつれてスムーズな視線ポインタ移動がなされていた。このことは、実験回数6~10回目の視線ポインタ平均移動時間(図41、図42、図43)が実験回数1~5回目の視線ポインタ平均移動時間(図38、図39、図40)より5秒程度短くなっていることからもわかる。
【0089】
視線ポインタの移動時間については、3手法とも全被験者平均10秒程度であり、通常のマウス操作に比べて遅いことは否めないが、アプリケーションを選択するうえでは支障がないといえる。また、一回の視線検出における視線ポインタの移動量を大きくすれば移動速度も必然的に上がる。本調査では、視線ポインタの使用が初めての被験者20が多かったため移動量を小さくして移動速度を抑えたが、視線ポインタの使用に慣れるに従い移動速度を上げて、各被験者20に最適な速度を設定することにより、さらなる快適な操作を実現できる。その場合、選択したいアプリケーション近傍領域での操作性を考慮して移動量を設定する必要がある。
【図面の簡単な説明】
【0090】
【図1】本発明に係る眼球運動を用いた視線入力コミュニケーションシステムのハードウェア構成図である。
【図2】視線入力式コミュニケーションシステムの概要図である。
【図3】コミュニケーションスクリーン(初期画面)の一例として、9分割画面を示す図である。
【図4】図3のコミュニケーションスクリーンにおいて「テレビ」が選ばれた場合のコミュニケーションスクリーンの一例を図4(a)に示し、さらに図4(a)の画面で「チャンネルを変えて」を選択した場合のコミュニケーションスクリーンの一例(図4(b))を示した図である。
【図5】システムの処理手順を示すフロー図である。
【図6】個人識別手順を示すフロー図である。
【図7】入力画像における(a)は顔全体を示し(b)は目周辺領域を示す拡大図である。
【図8】差画像を示す図である。
【図9】目の位置検出を示す図である。
【図10】サイズ別テンプレート画像を示す図である。
【図11】画像サイズ別テンプレートマッチングを示す図である。
【図12】登録されたテンプレート画像の例を示す図である。
【図13】マッチング結果を示す図である。
【図14】方向別画像相関法(method I)における9方向別テンプレート画像の一例を示す図である。
【図15】黒画素領域検出法(method II)における高速テンプレートマッチングによる黒目追従の一例を示す図である。
【図16】エッジ特徴点検出法(method III)における前処理の一例を示す図である。
【図17】エッジ特徴点検出法(method III)におけるソーベル・フィルタによるエッジ検出の一例を示す図である。
【図18】エッジ特徴点検出法(method III)における接点4点の検出の一例を示す図である。
【図19】被験者に対する視線方向検出実験における実験画面を示す図である。
【図20】被験者に対する視線方向検出実験における9方向視線検出結果の一例を示す図である。
【図21】被験者に対する視線方向検出実験における12方向視線検出結果の一例を示す図である。
【図22】視線方向の取得から仮想キーワードの使用またはアプリケーションの使用までのフロー図である。
【図23】視線ポインタ付近の表示画面領域が拡大されて画面中央に表示された画面図である。
【図24】視線ポインタを起動させたいアプリケーション近傍まで移動させる画面図である。
【図25】表示画面中央のウインドウで位置確認を行い視線ポインタをアプリケーション上に移動した画面図である。
【図26】瞼を意識的に3秒以上閉じると選択したアプリケーションが移動する画面図である。
【図27】表示画面中央に起動させたいアプリケーションを選択するための選択決定領域を表示する画面図である。
【図28】起動させたいアプリケーションに視線を向けると、そのアプリケーションがモニタ中央付近に位置するように表示画面をスクロールする画面図である。
【図29】モニタ中央に常に選択決定領域が固定表示されており、起動させたいアプリケーションを選択決定領域内に移動するための画面図である。
【図30】瞼を意識的に3秒以上閉じると領域内のアプリケーションが起動するための画面図である。
【図31】初期画面である。
【図32】アプリケーションを含む区画を注視し選択するための表示画面図である。
【図33】選択された区画領域拡大した画面図である。
【図34】アプリケーションを向け画面をスクロールするための画面図である。
【図35】意識的な瞬きを行いポインタ表示する画面図である。
【図36】ポインタをアプリケーション上に移動させ起動するための画面図である。
【図37】ポインタ近傍領域拡大法による測定結果図(1~5回目の平均測定値)である。
【図38】画面スクロール法による測定結果図(1~5回目の平均測定値)である。
【図39】分割領域拡大法による測定図(1~5回目の平均測定値)である。
【図40】視線ポインタ近傍領域拡大法による測定結果図(6~10回目の平均測定値)である。
【図41】画面スクロール法による測定結果図(6~10回目の平均測定値)である。
【図42】分割領域拡大法による測定図(6~10回目の平均測定値)である。
【符号の説明】
【0091】
11 表示画面
12 ビデオカメラ
14 画像取り込み装置
16 カメラ制御装置
18 演算処理装置
20 ALS患者(被験者)
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13
【図15】
14
【図16】
15
【図17】
16
【図18】
17
【図19】
18
【図20】
19
【図21】
20
【図22】
21
【図23】
22
【図24】
23
【図25】
24
【図26】
25
【図27】
26
【図28】
27
【図29】
28
【図30】
29
【図31】
30
【図32】
31
【図33】
32
【図34】
33
【図35】
34
【図36】
35
【図37】
36
【図38】
37
【図39】
38
【図40】
39
【図41】
40
【図42】
41