TOP > 国内特許検索 > 感覚データ識別装置及びプログラム > 明細書

明細書 :感覚データ識別装置及びプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5802916号 (P5802916)
公開番号 特開2012-181607 (P2012-181607A)
登録日 平成27年9月11日(2015.9.11)
発行日 平成27年11月4日(2015.11.4)
公開日 平成24年9月20日(2012.9.20)
発明の名称または考案の名称 感覚データ識別装置及びプログラム
国際特許分類 G06T   7/00        (2006.01)
FI G06T 7/00 130
G06T 7/00 350C
請求項の数または発明の数 8
全頁数 27
出願番号 特願2011-042814 (P2011-042814)
出願日 平成23年2月28日(2011.2.28)
審査請求日 平成26年2月28日(2014.2.28)
特許権者または実用新案権者 【識別番号】000003609
【氏名又は名称】株式会社豊田中央研究所
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
発明者または考案者 【氏名】星野 博之
【氏名】大脇 崇史
【氏名】倉重 宏樹
【氏名】加藤 英之
個別代理人の代理人 【識別番号】100079049、【弁理士】、【氏名又は名称】中島 淳
【識別番号】100084995、【弁理士】、【氏名又は名称】加藤 和詳
審査官 【審査官】佐藤 実
参考文献・文献 国際公開第2009/035108(WO,A1)
特開2003-058298(JP,A)
特開2003-150528(JP,A)
調査した分野 G06T 7/00
特許請求の範囲 【請求項1】
感覚データ又は関連感覚データを与えたときに生物の脳の各計測点で計測された信号を表わす脳活動データと前記感覚データ又は前記関連感覚データとに対して、カーネル正準相関分析を行って、前記脳活動データと前記感覚データ又は前記関連感覚データとの相関が高くなるように、カーネル関数の線形和で表わされる正準相関変数における重みを学習し、学習された重みを用いた前記正準相関変数を、前記感覚データを識別するための感覚特徴量とする学習手段と、
予め用意された複数の感覚データの各々から、前記学習手段によって学習された前記感覚特徴量を算出する第2特徴量算出手段と、
前記第2特徴量算出手段によって算出された前記感覚特徴量と対応する感覚データに対して予め求められた識別結果とを学習データとして、前記感覚データを識別するための識別モデルを学習する識別モデル学習手段と、
入力された感覚データから、前記学習手段によって学習された前記感覚特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出された前記感覚特徴量と前記識別モデルとに基づいて、前記感覚データを識別する識別手段と、
を含む感覚データ識別装置。
【請求項2】
感覚データと前記感覚データに対して予め求められた識別結果との組み合わせを学習データとして学習されたニューラルネットワークに前記感覚データ又は関連感覚データを与えたときに前記ニューラルネットワークの中間層の各ニューロンで観測された出力を表わす擬似脳活動データと前記感覚データ又は前記関連感覚データとに対して、カーネル正準相関分析を行って、前記擬似脳活動データと前記感覚データ又は前記関連感覚データとの相関が高くなるように、カーネル関数の線形和で表わされる正準相関変数における重みを学習し、学習された重みを用いた前記正準相関変数を、前記感覚データを識別するための感覚特徴量とする学習手段と、
予め用意された複数の感覚データの各々から、前記学習手段によって学習された前記感覚特徴量を算出する第2特徴量算出手段と、
前記第2特徴量算出手段によって算出された前記感覚特徴量と対応する感覚データに対して予め求められた識別結果とを学習データとして、前記感覚データを識別するための識別モデルを学習する識別モデル学習手段と、
入力された感覚データから、前記学習手段によって学習された前記感覚特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出された前記感覚特徴量と前記識別モデルとに基づいて、前記感覚データを識別する識別手段と、
を含む感覚データ識別装置。
【請求項3】
前記感覚特徴量は、以下の式で表される請求項1又は2記載の感覚データ識別装置。
【数1】
JP0005802916B2_000012t.gif


ただし、Ia(n)(x)は、前記入力された感覚データxの前記感覚特徴量であり、aT(n)φ(x)は、n番目の前記正準相関変数であり、x(j)は、カーネル正準相関分析のために予め与えられたj番目の前記感覚データ又は前記関連感覚データである。ka(x(j),x)はj番目の前記カーネル関数であり、αj(n)は前記j番目のカーネル関数に対する前記重みである。
【請求項4】
前記学習手段は、複数の正準相関変数の各々における重みを学習し、学習された重みを用いた前記複数の正準相関変数を、前記感覚特徴量とする請求項1~請求項の何れか1項記載の感覚データ識別装置。
【請求項5】
前記感覚データを、画像データ、音データ、においデータ、又は触覚データとした請求項1~請求項の何れか1項記載の感覚データ識別装置。
【請求項6】
前記識別手段による識別結果と、前記入力された感覚データとを対応付けて表示手段に表示させる表示制御手段を更に含む請求項1~請求項の何れか1項記載の感覚データ識別装置。
【請求項7】
コンピュータを、
感覚データ又は関連感覚データを与えたときに生物の脳の各計測点で計測された信号を表わす脳活動データと前記感覚データ又は前記関連感覚データとに対して、カーネル正準相関分析を行って、前記脳活動データと前記感覚データ又は前記関連感覚データとの相関が高くなるように、カーネル関数の線形和で表わされる正準相関変数における重みを学習し、学習された重みを用いた前記正準相関変数を、前記感覚データを識別するための感覚特徴量とする学習手段、
予め用意された複数の感覚データの各々から、前記学習手段によって学習された前記感覚特徴量を算出する第2特徴量算出手段と、
前記第2特徴量算出手段によって算出された前記感覚特徴量と対応する感覚データに対して予め求められた識別結果とを学習データとして、前記感覚データを識別するための識別モデルを学習する識別モデル学習手段と、
入力された感覚データから、前記学習手段によって学習された前記感覚特徴量を算出する特徴量算出手段、及び
前記特徴量算出手段によって算出された前記感覚特徴量と前記識別モデルとに基づいて、前記感覚データを識別する識別手段
として機能させるためのプログラム。
【請求項8】
コンピュータを、
感覚データと前記感覚データに対して予め求められた識別結果との組み合わせを学習データとして学習されたニューラルネットワークに前記感覚データ又は関連感覚データを与えたときに前記ニューラルネットワークの中間層の各ニューロンで観測された出力を表わす擬似脳活動データと前記感覚データ又は前記関連感覚データとに対して、カーネル正準相関分析を行って、前記擬似脳活動データと前記感覚データ又は前記関連感覚データとの相関が高くなるように、カーネル関数の線形和で表わされる正準相関変数における重みを学習し、学習された重みを用いた前記正準相関変数を、前記感覚データを識別するための感覚特徴量とする学習手段、
予め用意された複数の感覚データの各々から、前記学習手段によって学習された前記感覚特徴量を算出する第2特徴量算出手段と、
前記第2特徴量算出手段によって算出された前記感覚特徴量と対応する感覚データに対して予め求められた識別結果とを学習データとして、前記感覚データを識別するための識別モデルを学習する識別モデル学習手段と、
入力された感覚データから、前記学習手段によって学習された前記感覚特徴量を算出する特徴量算出手段、及び
前記特徴量算出手段によって算出された前記感覚特徴量と前記識別モデルとに基づいて、前記感覚データを識別する識別手段
として機能させるためのプログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、感覚データ識別装置及びプログラムに係り、特に、感覚データを識別するための感覚特徴量を学習して、感覚データを識別する感覚データ識別装置及びプログラムに関する。
【背景技術】
【0002】
従来より、正準相関解析で得られた変換行列によって特徴ベクトルを写像して新特徴ベクトルを算出する物品判別方法が知られている(特許文献1)。
【先行技術文献】
【0003】

【特許文献1】特開2006-260310号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の特許文献1に記載の技術では、正準相関解析にて特徴ベクトルを次元圧縮しているだけであり、識別性能を向上させる特徴量を算出することはできない、という問題がある。
【0005】
本発明は、上記の問題点を解決するためになされたもので、正準相関解析のカーネル版(カーネル正準相関解析)を使って、感覚データに対する識別性能を向上させることができる感覚データ識別装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記の目的を達成するために第1の発明に係る感覚データ識別装置は、感覚データ又は関連感覚データを与えたときに生物の脳の各計測点で計測された信号を表わす脳活動データと前記感覚データ又は前記関連感覚データとに対して、カーネル正準相関分析を行って、前記脳活動データと前記感覚データ又は前記関連感覚データとの相関が高くなるように、カーネル関数の線形和で表わされる正準相関変数における重みを学習し、学習された重みを用いた前記正準相関変数を、前記感覚データを識別するための感覚特徴量とする学習手段と、予め用意された複数の感覚データの各々から、前記学習手段によって学習された前記感覚特徴量を算出する第2特徴量算出手段と、前記第2特徴量算出手段によって算出された前記感覚特徴量と対応する感覚データに対して予め求められた識別結果とを学習データとして、前記感覚データを識別するための識別モデルを学習する識別モデル学習手段と、入力された感覚データから、前記学習手段によって学習された前記感覚特徴量を算出する特徴量算出手段と、前記特徴量算出手段によって算出された前記感覚特徴量と前記識別モデルとに基づいて、前記感覚データを識別する識別手段と、を含んで構成されている。
【0007】
第2の発明に係るプログラムは、コンピュータを、感覚データ又は関連感覚データを与えたときに生物の脳の各計測点で計測された信号を表わす脳活動データと前記感覚データ又は前記関連感覚データとに対して、カーネル正準相関分析を行って、前記脳活動データと前記感覚データ又は前記関連感覚データとの相関が高くなるように、カーネル関数の線形和で表わされる正準相関変数における重みを学習し、学習された重みを用いた前記正準相関変数を、前記感覚データを識別するための感覚特徴量とする学習手段、予め用意された複数の感覚データの各々から、前記学習手段によって学習された前記感覚特徴量を算出する第2特徴量算出手段と、前記第2特徴量算出手段によって算出された前記感覚特徴量と対応する感覚データに対して予め求められた識別結果とを学習データとして、前記感覚データを識別するための識別モデルを学習する識別モデル学習手段と、入力された感覚データから、前記学習手段によって学習された前記感覚特徴量を算出する特徴量算出手段、及び前記特徴量算出手段によって算出された前記感覚特徴量と前記識別モデルとに基づいて、前記感覚データを識別する識別手段として機能させるためのプログラムである。
【0008】
第1の発明及び第2の発明によれば、学習手段によって、感覚データ又は関連感覚データを与えたときに生物の脳の各計測点で計測された信号を表わす脳活動データと感覚データ又は関連感覚データとに対して、カーネル正準相関分析を行って、脳活動データと感覚データ又は関連感覚データとの相関が高くなるように、カーネル関数の線形和で表わされる正準相関変数における重みを学習する。そして、学習された重みを用いた正準相関変数を、感覚データを識別するための感覚特徴量とする。
【0009】
そして、特徴量算出手段によって、入力された感覚データから、学習手段によって学習された感覚特徴量を算出する。識別手段によって、特徴量算出手段によって算出された感覚特徴量に基づいて、感覚データを識別する。
【0010】
このように、脳活動データと感覚データ又は関連感覚データとに対して、カーネル正準相関分析を行って、カーネル関数の線形和で表わされる正準相関変数を、感覚特徴量とすることにより、感覚データに対する識別性能を向上させることができる。
【0011】
なお、感覚特徴量を学習するために使う感覚データは、識別の対象となる感覚データとまったく同じものではなくてよく、ある程度関連はあるものであればよい。本明細書では感覚特徴量を学習ためのデータであって、識別の対象となる感覚データと関連のあるデータを「関連感覚データ」、「関連画像データ」などと呼ぶ。
【0013】
第4の発明に係るプログラムは、コンピュータを、感覚データと前記感覚データに対して予め求められた識別結果との組み合わせを学習データとして学習されたニューラルネットワークに前記感覚データ又は関連感覚データを与えたときに前記ニューラルネットワークの中間層の各ニューロンで観測された出力を表わす擬似脳活動データと前記感覚データ又は前記関連感覚データとに対して、カーネル正準相関分析を行って、前記擬似脳活動データと前記感覚データ又は前記関連感覚データとの相関が高くなるように、カーネル関数の線形和で表わされる正準相関変数における重みを学習し、学習された重みを用いた前記正準相関変数を、前記感覚データを識別するための感覚特徴量とする学習手段、予め用意された複数の感覚データの各々から、前記学習手段によって学習された前記感覚特徴量を算出する第2特徴量算出手段と、前記第2特徴量算出手段によって算出された前記感覚特徴量と対応する感覚データに対して予め求められた識別結果とを学習データとして、前記感覚データを識別するための識別モデルを学習する識別モデル学習手段と、入力された感覚データから、前記学習手段によって学習された前記感覚特徴量を算出する特徴量算出手段、及び前記特徴量算出手段によって算出された前記感覚特徴量と前記識別モデルとに基づいて、前記感覚データを識別する識別手段として機能させるためのプログラムである。
【0014】
第3の発明及び第4の発明によれば、学習手段によって、感覚データと感覚データに対して予め求められた識別結果との組み合わせを学習データとして学習されたニューラルネットワークに感覚データ又は関連感覚データを与えたときにニューラルネットワークの中間層の各ニューロンで観測された出力を表わす擬似脳活動データと感覚データ又は関連感覚データとに対して、カーネル正準相関分析を行って、擬似脳活動データと感覚データ又は関連感覚データとの相関が高くなるように、カーネル関数の線形和で表わされる正準相関変数における重みを学習する。そして、学習された重みを用いた正準相関変数を、感覚データを識別するための感覚特徴量とする。
【0015】
このように、擬似脳活動データと感覚データ又は関連感覚データとに対して、カーネル正準相関分析を行って、カーネル関数の線形和で表わされる正準相関変数を、感覚特徴量とすることにより、感覚データに対する識別性能を向上させることができる。
【0016】
上記感覚特徴量は、以下の式で表されるようにすることができる。
【0017】
【数1】
JP0005802916B2_000002t.gif

【0018】
ただし、Ia(n)(x)は、入力された感覚データxの感覚特徴量であり、aT(n)φ(x)は、n番目の正準相関変数であり、x(j)は、カーネル正準相関分析のために予め与えられたj番目の感覚データ又は関連感覚データである。ka(x,x’)はカーネル関数であり、αj(n)はj番目のカーネル関数に対する重みである。
【0020】
上記の学習手段は、複数の正準相関変数の各々における重みを学習し、学習された重みを用いた複数の正準相関変数を、感覚特徴量とすることができる。
【0021】
上記の感覚データを、画像データ、音データ、においデータ、又は触覚データとすることができる。
【0022】
上記の感覚データ識別装置は、識別手段による識別結果と、入力された感覚データとを対応付けて表示手段に表示させる表示制御手段を更に含むようにすることができる。
【発明の効果】
【0023】
以上説明したように、本発明の感覚データ識別装置及びプログラムによれば、脳活動データ又は擬似脳活動データと感覚データ又は関連感覚データとに対して、カーネル正準相関分析を行って、カーネル関数の線形和で表わされる正準相関変数を、感覚特徴量とすることにより、感覚データに対する識別性能を向上させることができる、という効果が得られる。
【図面の簡単な説明】
【0024】
【図1】本発明の第1の実施の形態に係る対象物識別装置の構成を示す概略図である。
【図2】本発明の第1の実施の形態に係る脳活動データ計測装置の構成を示す概略図である。
【図3】キャップ型電極を被験者に装着した様子を示す図である。
【図4】本発明の第1の実施の形態に係る対象物識別装置のコンピュータにおける特徴量学習処理ルーチンの内容を示すフローチャートである。
【図5】本発明の第1の実施の形態に係る対象物識別装置のコンピュータにおける識別処理ルーチンの内容を示すフローチャートである。
【図6】識別結果を表示する画面のイメージ図である。
【図7】本発明の第2の実施の形態に係る擬似脳活動データ計測装置の構成を示す概略図である。
【図8】ニューラルネットワークを説明するための図である。
【図9】本発明の第2の実施の形態に係る擬似脳活動データ計測装置における擬似脳信号取得処理ルーチンの内容を示すフローチャートである。
【図10】手書き数字画像データの例を示す図である。
【図11】(A)画像側の第1正準相関変数と脳側の第1正準相関変数との関係を示すグラフ、及び(B)画像側の第2正準相関変数と脳側の第2正準相関変数との関係を示すグラフである。
【図12】(A)画像側の第3正準相関変数と脳側の第3正準相関変数との関係を示すグラフ、及び(B)画像側の第4正準相関変数と脳側の第4正準相関変数との関係を示すグラフである。
【図13】(A)画像側の第1正準相関変数の分布を示すグラフ、及び(B)画像側の第2正準相関変数の分布を示すグラフである。
【図14】(A)画像側のPCAの第1成分の分布を示すグラフ、及び(B)画像側のPCAの第2成分の分布を示すグラフである。
【図15】従来のSVM及びKCCA-SVMにおける遮蔽ありの手書き数字に対する正答率と、手書き平仮名を入力刺激とした場合のKCCA-SVMによる正答率とを示すグラフである。
【図16】手書き平仮名を表わす画像データの集合の例を示す図である。
【発明を実施するための形態】
【0025】
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、撮像画像が、識別対象物としての歩行者を撮像した画像であるか否かを識別する対象物識別装置に本発明を適用した場合を例に説明する。

【0026】
図1に示すように、第1の実施の形態に係る対象物識別装置10は、車両(図示省略)に取り付けられ、かつ、車両の前方を撮像して画像を生成する撮像装置12と、撮像装置12から得られる撮像画像が歩行者を撮像した画像であるか否かを識別するコンピュータ14と、コンピュータ14の識別結果を表示する表示装置16とを備えている。

【0027】
撮像装置12は、車両の前方を撮像し、画像の画像信号を生成する撮像部(図示省略)と、撮像部で生成された画像信号をA/D変換するA/D変換部(図示省略)と、A/D変換された画像信号を一時的に格納するための画像メモリ(図示省略)とを備えている。

【0028】
コンピュータ14は、CPUと、RAMと、後述する特徴量学習処理ルーチン及び識別処理ルーチンを実行するためのプログラムを記憶したROMとを備え、機能的には次に示すように構成されている。コンピュータ14は、後述する画像データ及び脳活動データのペアを複数記憶した画像脳信号記憶部20と、画像データ及び脳活動データの複数ペアに基づいて、画像特徴量を学習する画像特徴量学習部22と、画像特徴量学習部22による学習結果を記憶する学習結果記憶部24と、を備えている。

【0029】
画像脳信号記憶部20に記憶されている画像データ及び脳活動データの複数ペアは、図2に示す脳活動データ計測装置30によって求められる。脳活動データ計測装置30は、被験者の頭部表面上の複数の部位から脳波信号を検出するためのキャップ型電極32と、画像データを表示する表示装置34と、表示装置34に画像データを表示させたときにキャップ型電極32により検出した各部位の脳波信号を表わす脳活動データを記録するコンピュータ36とを備えている。

【0030】
図3に示すように、キャップ型電極32は、被験者の頭部表面上の複数の部位に装着され、頭部表面上の複数の部位から脳波信号を検出する。また、表示装置34の表示画面は、被験者に対して向いている。

【0031】
コンピュータ36は、CPUと、RAMと、ROMとを備え、機能的には次に示すように構成されている。コンピュータ36は、歩行者画像と非歩行者画像を含む複数の画像データを予め記憶すると共に、対応する脳活動データを格納するための画像脳信号記憶部38と、画像脳信号記憶部38から読み込んだ画像データを表示装置34に表示させる表示制御部40と、表示装置34に画像データが表示されたときにキャップ型電極32から出力された脳波信号を取得する信号取得部42と、A/D変換を行って、信号取得部42によって取得した脳波信号をデジタル信号に変換するA/D変換部44と、得られた各部位の脳波信号を表わす脳活動データを、画像データと対応させて画像脳信号記憶部38に格納する記憶制御部46とを備えている。

【0032】
信号取得部42は、被験者の頭部表面上の複数の部位に取り付けられた電極の各々から出力された脳波信号を取得し、雑音除去や増幅処理を行う。

【0033】
コンピュータ36は、表示制御部40によって、画像脳信号記憶部38に記憶された複数の画像データを順次表示装置34に表示させると共に、記憶制御部46によって、各画像データを表示させたときに検出された脳活動データを、画像データと対応させて画像脳信号記憶部38に記憶させる。これによって、画像脳信号記憶部38には、画像データと脳活動データとのペアが複数記憶される。

【0034】
画像脳信号記憶部38に記憶された画像データと脳活動データとの複数ペアが、対象物識別装置10のコンピュータ14に入力され、画像脳信号記憶部20には、脳活動データ計測装置30の画像脳信号記憶部38と同じ画像データと脳活動データとの複数ペアが記憶される。

【0035】
次に、画像データと脳活動データとの複数ペアから、画像特徴量を学習する原理について説明する。

【0036】
いま目の前に見えている対象物が人であるか無いかといった視覚弁別タスクは、対象物がノイズや遮蔽物によって隠されると既存の装置にとって極めて困難な課題となる。一方、生物はこのような視覚妨害物への正しい対応が生存上必須であり、上記のタスクを脳はうまくこなすことができる。そこで、脳からその方法を学ぶ事を考える。近年の急速な脳活動測定技術の進歩により、脳が視覚弁別をこなしている時の多数の脳細胞の活動を同時に計測することが可能になっている。そこで、被験者が見ている画像データをx、その時の脳活動をy、その画像が歩行者であるかないかについての脳の判断をzとする。xは画像を表すので画素数の次元をもつベクトル、yは、複数部位の活動を表すので同時測定される部位数の次元を持つベクトルとして表現される。最後にzは歩行者かそうでないかの判断なので0か1を取るスカラー変数である。

【0037】
なお、画像及び脳活動のある時刻一点における値だけでなく複数の時刻における値を考えて、それらの間の対応を調べるというように拡張することも可能で、その場合の次元数は、上述の次元数に、考慮する時刻の個数を乗じたものとなる。

【0038】
従来より、多数の画像x(1)、x(2)、x(3)、・・・x(N)に対する脳の判断z(1)、z(2)、z(3)、・・・z(N)を学習データとして、視覚弁別アルゴリズムとしてのSVMモデルを学習する手法が知られている。この従来手法では、x(j)とz(j)の組から画像の弁別にとって重要な画像の特徴量を見つける、という方法が主なものであるが、その従来の手法では識別精度に限界があった。

【0039】
本実施の形態で提案する方法の新しいところは、その時の脳活動y(1)、y(2)、y(3)、・・・y(N)を用いるところである。脳神経の活動y(j)によってz(j)という正しい判断がなされていることに注目すると、画像特徴の中で神経活動と相関するものが、画像の識別にとって重要な画像特徴量であると考えられるため、画像を識別するときの脳活動データ、又は関連画像データを入力するときの脳活動データを用いる。

【0040】
また、画像x(j)と脳活動y(j)の関係は極めて非線形であり通常の正準相関解析で求めるのは難しい。しかし、画像x(j)と脳活動y(j)を、それぞれ高次元特徴空間にφ(x(j))とΨ(y(j))のように写像すると、φ(x(j))とΨ(y(j))の関係が線形になる。このことを利用するために、本実施の形態では、画像x(j)と脳活動y(j)の間の相関を、カーネル正準相関分析(Kernel Canonical Correlation Analysis: KCCA)を使って求める。

【0041】
{φ(x(j))}が存在する空間と{Ψ(y(j))}が存在する空間とでお互いが最も高い線形相関を持つような1次元空間を探すには、それぞれをある1次元に射影した量であるaTφ(x(j))とbTΨ(y(j))を考える。カーネル正準相関分析では、以下の(1)式で表されるaTφ(x(j))とbTΨ(y(j))の相関C(aTφ(x(j)),bTΨ(y(j)))が最大になるaTとbTを決定する。

【0042】
【数2】
JP0005802916B2_000003t.gif

【0043】
ここで、aTとbTは、それぞれ、φ(x(j))とΨ(y(j))と同じ次元のベクトルの転置である。また、Cov(X,Y)は共分散であり、Var(X)は分散である。

【0044】
また、aTとbTを求める際に、aTとbTを求めるために与えられた有限個のデータに対して相関が極端に高くなり、未知のデータに対する相関を悪くする危険(オーバーフィッティング)を防ぐため、以下の(2)式で表される正則化項を付け加えた上で最大化問題を解く。

【0045】
【数3】
JP0005802916B2_000004t.gif

【0046】
具体的な計算では、aTφ(x(j))とbTΨ(y(j))が、予め定められたカーネル関数(ここではGaussカーネルを用いる)の線形和として、具体的に以下の(3)式、(4)式に示すように、α、βを使って表現ができることを用いる(カーネルトリック)。

【0047】
【数4】
JP0005802916B2_000005t.gif

【0048】
すなわち、本実施の形態では、上記(1)式に上記(3)式、(4)式を代入した式を最大化するα、βを求める。なお、α、βを計算するための、上記(2)式で表される正則化項を付け加えた詳細な式については、非特許文献(カーネル多変量解析、赤穂昭太郎、岩波書店、2008、76-77ページ、式(3.80))に記載されている式と同様な式を用いればよいため、記載を省略する。

【0049】
上述のようなベクトル(a,b)の組(具体的な計算では、(α、β)の組)は一般化固有値問題の解として求まるが、求められる固有ベクトル(a,b)を、相関値c(1)、c(2)、c(3)、・・・の高い順に、(a(1),b(1))、(a(2),b(2))、(a(3),b(3))、・・・とする。また、上記(1)式の相関値はベクトル(a,b)に依存しない量なので、ここでの最大化の手続きでは、ベクトル(a(j),b(j))の長さは指定されない。しかしながら、大きな相関値に対応するベクトルほど重要と考えられるので、以下の(5)式により、これらベクトルの長さを相関の値と等しくすることによって、ベクトルの重要度の情報を織り込むことにする。

【0050】
【数5】
JP0005802916B2_000006t.gif

【0051】
以下で現れる(a(j),b(j))はこのように長さを調整したものを意味する。

【0052】
以上のように定めたaT(1)φ(x)、bT(1)Ψ(y)をそれぞれ画像の第1正準相関変数、脳活動の第1正準相関変数と呼び、同様に、aT(2)φ(x)、bT(2)Ψ(y)を画像および脳活動の第2正準相関変数と、順次呼ぶことにする。

【0053】
このようにして得られる画像側の正準相関変数が、画像判別に有用な画像特徴量となる。画像xに対する画像特徴量Ia(x)は、カーネル関数ka(a,b)の線形和として具体的に以下の(6)式で計算できる。

【0054】
【数6】
JP0005802916B2_000007t.gif

【0055】
ただし、x(j)は、カーネル正準相関分析のために予め与えられた画像データである。

【0056】
ちなみに、脳活動側の特徴量I(x)も、同様に脳活動側カーネル関数kb(y、y’)の線形和として、以下の(7)式で計算できる。

【0057】
【数7】
JP0005802916B2_000008t.gif

【0058】
ところで、上記(2)式で必要であった|a(j)|と|b(j)|もカーネル関数で書けるので実質的な計算が可能である。

【0059】
このようにして得られた上記(6)式で表わされる画像特徴量は、今問題としている視覚弁別課題を高精度で解くことのできる脳の活動を反映させてつくられたものである。したがって、当該画像特徴量を使った視覚弁別アルゴリズムは、原理的に脳の能力を反映した高性能を示す。

【0060】
また、本実施の形態では、画像側のn0個の正準相関変数{I(1)a(x),I(2)a(x),・・・,I(n0)a(x)}を画像特徴量として用いる。

【0061】
画像特徴量学習部24は、上記で説明したように、画像データと脳活動データとの複数ペアから、n0個の正準相関変数の各々における重みα、βを学習して、当該重みαと当該画像データの集合とを用いて上記(6)式で算出される画像側のn0個の正準相関変数を、画像特徴量として決定し、学習結果記憶部24に、画像特徴量の学習結果として、n0個の正準相関変数の各々について、上記(6)式の重みα及び画像データx(j)を含む各パラメータを格納する。

【0062】
また、対象物識別装置10のコンピュータ14は、画像脳信号記憶部20に記憶された画像データの各々から、学習された画像特徴量を算出する特徴量算出部50と、算出された画像特徴量、および対応する画像データに与えられた教師ラベルに基づいて、識別モデルを学習する識別モデル学習部52と、学習された識別モデルを記憶した識別モデル記憶部54とを更に備えている。

【0063】
特徴量算出部50は、画像脳信号記憶部20に記憶された画像データの各々から、画像特徴量として、上記(6)式で表わされる画像側のn0個の正準相関変数を算出する。

【0064】
識別モデル学習部52は、算出された画像特徴量、および対応する画像データが歩行者画像及び非歩行者画像の何れであるかに応じて付与された教師ラベルに基づいて、識別モデルとしてのSVM(サポートベクターマシン)モデルを学習し、学習されたSVMモデルを、識別モデル記憶部54に格納する。

【0065】
コンピュータ14は、撮像装置12によって撮像された画像データから、学習された画像特徴量を算出する特徴量算出部56と、算出された画像特徴量、及び学習されたSVMモデルとに基づいて、SVM識別器により、撮像された画像データが歩行者を撮像した画像であるか否かを識別する識別部58とを更に備えている。

【0066】
特徴量算出部56は、撮像装置12によって撮像された画像データを取得し、取得した画像データから、画像特徴量として、上記(6)式で表わされる画像側のn0個の正準相関変数を算出する。

【0067】
識別部58は、識別モデル記憶部54に記憶されたSVMモデルと、特徴量算出部56により算出された画像特徴量としての画像側のn0個の正準相関変数とに基づいて、従来既知のSVM識別器を用いて、撮像された画像データが歩行者を撮像した画像であるか否かを識別し、識別結果を、撮像された画像データと対応付けて表示装置16に表示させる。

【0068】
例えば、SVM識別器では、画像側のn0個の正準相関変数の張る空間での線形分離、または画像側のn0個の正準相関変数をさらに高次元に写像した空間での線形分離を行う。これらの線形分離では、それぞれ、以下の(8)式、(9)式で表わされるカーネル関数を使って、画像の識別を行う。

【0069】
【数8】
JP0005802916B2_000009t.gif

【0070】
次に、本実施の形態の作用について説明する。まず、歩行者を撮像することにより得られた複数の歩行者画像データと、歩行者以外を撮像することにより得られた非歩行者画像データとを用意し、各画像データに教師ラベルを与えて、脳活動データ計測装置30の画像脳信号記憶部38に格納する。

【0071】
そして、キャップ型電極32を被験者の頭部に装着した状態で、脳活動データ計測装置30のコンピュータ36によって、画像脳信号記憶部38に記憶されている各画像データを、表示装置34に表示させると共に、このときに検出される各部位の脳波信号を表わす脳活動データを取得し、画像脳信号記憶部38に、当該画像データと対応させて脳活動データを格納する。これによって、画像脳信号記憶部38に、画像データと脳活動データとの複数ペアが格納される。

【0072】
また、脳活動データ計測装置30の画像脳信号記憶部38に記憶されたデータを、対象物識別装置10に入力して、画像脳信号記憶部20に格納する。そして、対象物識別装置10のコンピュータ14において、図4に示す特徴量学習処理ルーチンが実行される。

【0073】
ステップ100において、画像脳信号記憶部20から、画像データと脳活動データとの複数ペアを読み込み、次のステップ102で、上記ステップ100で読み込んだ画像データと脳活動データとの複数ペアに基づいて、上記(1)式に上記(3)式、(4)式を代入した式で表わされる相関を最大にするカーネル関数の重みα、βを学習すると共に、学習された重みαを適用した上記(6)式で表わされる画像側のn0個の正準相関変数を、画像特徴量として決定する。例えば、相関値が所定値以上となる画像側の全ての正準相関変数を、画像特徴量として決定する。

【0074】
そして、ステップ104において、上記ステップ102で学習された上記(6)式で表される画像特徴量における、重みα及び画像データx(j)を含む各パラメータを学習結果記憶部24に格納する。

【0075】
次のステップ106では、画像脳信号記憶部20から各画像データを読み込み、各画像データについて、上記ステップ102で学習された画像特徴量を算出する。そして、ステップ108において、画像脳信号記憶部20から各画像データについて与えられた教師ラベルを読み込み、上記ステップ106で算出された各画像データの画像特徴量と、教師ラベルとに基づいて、SVMモデルを学習し、ステップ110において、上記ステップ108の学習結果を、識別モデル記憶部54に格納し、特徴量学習処理ルーチンを終了する。

【0076】
そして、対象物識別装置10を搭載した車両の走行中に、撮像装置12によって車両の前方の所定領域が撮像されると、コンピュータ14において、図5に示す識別処理ルーチンが実行される。

【0077】
まず、ステップ120において、撮像装置12から画像データを取得し、次のステップ122では、上記ステップ120で取得した画像データについて、学習された画像特徴量を算出する。そして、ステップ124において、上記ステップ122で算出された画像特徴量に基づいて、学習されたSVMモデル及びSVM識別器を用いて、撮像画像データが、歩行者を表わす歩行者画像データであるか否かを識別する。そして、ステップ126において、上記ステップ124における識別結果を、図6に示すように、撮像画像データと対応付けて表示装置16に表示して、識別処理ルーチンを終了する。

【0078】
以上説明したように、第1の実施の形態に係る対象物識別装置によれば、画像データと、当該画像データを表示したときに得られる脳活動データとに対して、カーネル正準相関分析を行って、カーネル関数の重みを学習し、学習された重みを適用した画像側の正準相関変数を、画像特徴量とすることにより、画像データに対する識別性能を向上させる画像特徴量を学習することができる。

【0079】
また、現在まで、人間を補助するために、人間にまねた様々な認知判断を行う装置が開発されてきたが、人間または動物の脳の能力には遠く及ばないことが多い。脳の持つ高い能力に少しでも迫るために、近年脳科学の知見をヒントとした新しい計算アルゴリズムに基づく機械装置の開発が模索されているが、それらの試みはまだ萌芽的段階にある。産業界の様々な業種で脳科学の知見を応用した新しい発想に基づく装置の開発が望まれているが、脳と機械では信号処理の原理、計算原理が全く異なり、脳科学の知見を機械に応用するのは容易でない。特に脳の研究は、分子生物学的研究から、行動、心理学的研究まで多岐にわたっており、脳は極めて複雑であるため、その中のどの知見が新装置の開発に役立つか明らかでない。このように、脳科学に学ぶことは重要とされながら、脳科学の知識を応用する具体的な手段は示されてこなかった。

【0080】
本実施の形態では脳科学実験で得られるタスク遂行中の脳活動データを用いて、脳の高度な特性を生かし、かつ、実装可能な計算アルゴリズムを提供して、画像データに対する識別性能を向上させる画像特徴量を学習することができるようにした。また、本実施の形態で学習される画像特徴量を用いることにより、これまでの認識機械での課題(例えば、画像による歩行者認識における、遮蔽やノイズの影響による誤認識及び不認識の問題)を解決することができる。

【0081】
また、本実施の形態では、脳から学ぶ現実的な方法を規定した。脳が行う知的タスクを、1)どの情報を使うか、2)その情報からどのように計算するか、に分けて考えるとき、本実施の形態では、1)のみについて脳から学び、2)については既存の数学的、工学的手法を適用し、脳からは学ばないようにした。このように学ぶ対象を明確に限定することにより、現実的かつ精密に脳科学の知見を取り入れた装置を開発することができる。

【0082】
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る対象物識別装置の構成は、第1の実施の形態と同様であるため、同一符号を付して説明を省略する。

【0083】
第2の実施の形態では、学習されたニューラルネットワークから、画像データを入力したときの擬似脳活動データを取得している点が、第1の実施の形態と主に異なっている。

【0084】
第2の実施の形態では、対象物識別装置10の画像脳信号記憶部20に、画像データ及び擬似脳活動データのペアが複数記憶されている。

【0085】
画像脳信号記憶部20に記憶されている画像データ及び擬似脳活動データの複数ペアは、図7に示す擬似脳活動データ計測装置230によって得られる。擬似脳活動データ計測装置230は、CPUと、RAMと、後述する擬似脳信号取得処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータであり、機能的には次に示すように構成されている。擬似脳活動データ計測装置230は、教師ラベルが付与された複数の画像データを予め記憶すると共に、対応する擬似脳活動データを格納するための画像脳信号記憶部238と、画像脳信号記憶部238から各画像データ及び教師ラベルを読み込んで、画像データが歩行者画像であるか非歩行者画像であるかを識別するためのニューラルネットワーク(擬似脳)を学習するニューラルネットワーク学習部240と、画像脳信号記憶部238から各画像データを読み込んでニューラルネットワークの入力層に入力する画像データ取得部242と、学習されたニューラルネットワークに基づいて、入力された画像データが歩行者画像であるか非歩行者画像であるかを識別するニューラルネットワーク識別部244と、画像データが入力されたときにニューラルネットワークの中間層の各ニューロンで観測された出力(擬似脳信号)を表わす擬似脳活動データを取得する擬似脳信号取得部246と、得られた擬似脳活動データを、入力された画像データと対応させて画像脳信号記憶部238に格納する記憶制御部248とを備えている。

【0086】
図8に示すように、本実施の形態で擬似脳として用いるニューラルネットワークモデルは、例えば、人工的神経回路網モデル(ANN)であり、入力層、中間層、及び出力層から構成され、各層は、少なくとも1つのニューロンを備えている。

【0087】
ニューラルネットワーク学習部240は、画像脳信号記憶部238から読み込んだ各画像データについて、画像データの各画素の画素値を、ニューラルネットワークの入力層の各ニューロンに入力したときに、出力層のニューロンから出力されるべき値を、当該画像データに対する教師ラベルに基づいて与えて、ニューラルネットワークを学習する。

【0088】
ニューラルネットワーク識別部244は、上記のように学習されたニューラルネットワークに基づいて、画像データが入力されたときの出力層の出力に従って、当該画像データが歩行者画像であるか非歩行者画像であるかを識別する
擬似脳活動データ計測装置230は、画像データ取得部242によって、画像脳信号記憶部238に記憶された複数の画像データを順次、学習されたニューラルネットワークに入力すると共に、擬似脳信号取得部246によって、各画像データをニューラルネットワークに入力したときに観測された擬似脳活動データを取得し、記憶制御部248によって、画像データと対応させて擬似脳活動データを画像脳信号記憶部238に記憶させる。これによって、画像脳信号記憶部238には、画像データと擬似脳活動データとのペアが複数記憶される。

【0089】
画像脳信号記憶部238に記憶された画像データと擬似脳活動データとの複数ペアが、対象物識別装置10のコンピュータ14に入力され、画像脳信号記憶部20には、擬似脳活動データ計測装置230の画像脳信号記憶部238と同じ画像データと擬似脳活動データとの複数ペアが記憶される。

【0090】
次に、本実施の形態の作用について説明する。まず、歩行者を撮像することにより得られた複数の歩行者画像データと、歩行者以外を撮像することにより得られた非歩行者画像データとを用意し、各画像データに教師ラベルを与えて、脳活動データ計測装置30の画像脳信号記憶部38に格納する。

【0091】
そして、擬似脳活動データ計測装置230によって、図9に示す擬似脳信号取得処理ルーチンが実行される。

【0092】
まず、ステップ250において、画像脳信号記憶部238に記憶されている各画像データ及び教師ラベルを読み込み、ステップ252において、上記ステップ250で読み込んだ各画像データ及び教師ラベルに基づいて、ニューラルネットワークを学習する。

【0093】
そして、ステップ254において、画像脳信号記憶部238に記憶されている1つの画像データを取得し、ステップ256において、上記ステップ254で取得した画像データを、ニューラルネットワークの入力層に入力する。

【0094】
そして、ステップ258において、上記ステップ256においてニューラルネットワークに画像データが入力されたときにニューラルネットワークの中間層の各ニューロンから出力される擬似脳信号を取得し、各ニューロンの擬似脳信号を表わす擬似脳活動データを取得する。そして、ステップ260において、画像脳信号記憶部238に、当該画像データと対応させて擬似脳活動データを格納する。ステップ262において、画像脳信号記憶部238に記憶されている全ての画像データについて、上記ステップ254~ステップ260の処理を実行したか否かを判定する。上記ステップ254~ステップ260の処理が実行されていない画像データが存在する場合には、上記ステップ254へ戻り、当該画像データについて、上記ステップ254~ステップ260の処理を繰り返す。一方、全ての画像データについて、上記ステップ254~ステップ260の処理を実行した場合には、擬似脳信号取得処理ルーチンを終了する。

【0095】
なお、第2の実施の形態に係る対象物識別装置10の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。

【0096】
以上説明したように、第2の実施の形態に係る対象物識別装置によれば、画像データと、当該画像データを与えたときにニューラルネットワークから得られる擬似脳活動データとに対して、カーネル正準相関分析を行って、カーネル関数の重みを学習し、学習された重みを適用した画像側の正準相関変数を、画像特徴量とすることにより、画像データに対する識別性能を向上させる画像特徴量を学習することができる。

【0097】
次に、第3の実施の形態について説明する。音データを識別する音識別装置に本発明を適用した場合を例に説明する。なお、第3の実施の形態に係る音識別装置及び脳活動データ計測装置の構成は、第1の実施の形態とほぼ同様の構成となっているため、同一符号を付して説明を省略する。

【0098】
第3の実施の形態では、画像データではなく、音データを被験者に与え、得られる脳活動データから、音特徴量を学習している点が、第1の実施の形態と異なっている。

【0099】
第3の実施の形態では、脳活動データ計測装置において、音データに基づいて音出力装置によって被験者に対して音出力し、このときに得られる各部位の脳波信号を表わす脳活動データを取得する。

【0100】
また、第3の実施の形態に係る音識別装置は、音データの周波数スペクトルデータと、脳活動データとの複数ペアから、上記(1)式で表わされる相関を最大にするカーネル関数の重みα、βを学習すると共に、学習された重みα及び学習用の音データx(j)を用いて上記(6)式で表わされる音側のn0個の正準相関変数を、音特徴量として決定し、学習された上記(6)式の重みα及び音データx(j)を含む各パラメータを学習結果記憶部24に格納する。

【0101】
また、音識別装置は、第1の実施の形態と同様に、上記のように学習された音特徴量を用いて、SVMモデルを学習すると共に、音入力装置から入力された音データの周波数スペクトルデータから、音特徴量を算出して、学習されたSVMモデルを用いて、音データを識別する。

【0102】
このように、第3の実施の形態に係る音識別装置によれば、音データと、当該音データを出力したときに得られる脳活動データとに対して、カーネル正準相関分析を行って、カーネル関数の重みを学習し、学習された重みを適用した音側の正準相関変数を、音特徴量とすることにより、音データに対する識別性能を向上させる音特徴量を学習することができる。

【0103】
なお、上記の第3の実施の形態において、上記第2の実施の形態で説明した手法と同様に、ニューラルネットワークなどの擬似脳を用いてもよい。この場合には、音データの周波数スペクトルデータを用いて、ニューラルネットワークを学習し、音データの周波数スペクトルデータを、学習されたニューラルネットワークに入力したときの擬似脳活動データを取得するようにすればよい。

【0104】
また、上記の第1の実施の形態~第3の実施の形態では、画像データ又は音データを識別するための画像特徴量、又は音特徴量を学習する場合について説明したが、脳は視覚、聴覚の他に、嗅覚、触覚、味覚などの感覚信号も処理弁別しており、このような別の感覚に対しても本発明を適用可能である。例えば、n個の化学物質センサで検出される各信号を表わす匂いデータに対して、食欲をそそるに匂いかを識別する匂い識別装置に本発明を適用してもよい。視覚の場合には、画像データが、ピクセル数の次元のベクトルであったが、嗅覚の場合は、匂いデータが、センサ個数の次元のベクトルトルとなり、匂いデータと脳活動データとに対して、カーネル正準相関分析を行って、嗅覚特徴量を学習すればよい。その結果、匂い判別に有利な嗅覚特徴量Ia(x)が得られ、嗅覚特徴量に基づいて、匂いを高精度に識別することができる。

【0105】
また、例えば、指先の感じる質感でその材質が木製であるかないかを識別する触覚識別装置に本発明を適用してもよい。この場合には、n個の触覚センサの出力を表わす触覚データと脳活動データとに対してカーネル正準相関分析を行って、材質判別に有利な触覚特徴量を学習することができる。

【0106】
また、上記の第2の実施の形態では、ニューラルネットワーク(疑似脳)を用いて、擬似脳活動データを取得する場合を例に説明したが、これに限定されるものではない。現存する多数の人工的視覚処理信号装置に、本発明で提案した手法を応用して、それらの装置がどのように一定の識別性能を発揮しているかを調べることも可能である。例えば、人工的視覚処理信号装置が、A=>B=>C=>...=>Eのように途中に何段か処理ステップを有する場合、興味ある処理ステップ、例えばA=>Cの間に対してカーネル正準相関分析を行って、Aの段に入力されるデータにおいて、識別に有利な特徴量が何かを理解するのに役立ててもよい。

【0107】
また、上記の第1の実施の形態~第3の実施の形態では、カーネル正準相関分析(KCCA)を用いた場合について示したが、通常の正準相関分析(CCA)を用いるだけで十分な性能が得られる場合もありうる。従って、実施手順として、まずはCCAを用いて、画像特徴量を学習し、学習された画像特徴量を用いた識別性能が不十分であった場合に、KCCAを用いて、画像特徴量を学習するようにしてもよい。

【0108】
また、上記の第1の実施の形態、第3の実施の形態では、人間の脳について脳活動データを計測する場合を例に説明したが、これに限定されるものではなく、他の生物(例えばラットやサル)の脳について脳活動データを計測してもよい。例えば、手書き数字などの判別ができるように生物を訓練でき、その判別時の脳活動(例えば一次視覚野)を2光子顕微鏡や多点電極などを用いて計測できれば、脳活動データとして用いることができる。

【0109】
また、SVM識別器を用いて、画像の識別処理を行う場合を例に説明したが、これに限定されるものではなく、従来既知の他の識別手法(例えば、最近傍識別、線形判別など)を用いて、画像の識別処理を行うようにしてもよい。

【0110】
また、撮像装置から撮像画像を取得し、撮像画像に対し、歩行者画像であるか否かを識別する場合を例に説明したが、これに限定されるものではなく、ハードディスク装置から画像データを読み込み、読み込んだ画像データに対し、歩行者画像であるか否かを識別してもよい。

【0111】
また、様々な大きさの切り出しウィンドウを用いて、撮像画像からウィンドウ画像を抽出し、各ウィンドウ画像に対して、学習された画像特徴量を算出して、歩行者画像であるか否かを識別してもよい。

【0112】
また、識別対象物が人物である場合を例に説明したが、これに限定されるものではなく、人物以外の物体を識別対象物としてもよい。

【0113】
なお、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムをCDROM等の記憶媒体に格納して提供することも可能である。
【実施例】
【0114】
本発明を適用した対象物識別装置の実施例について説明する。以下では、第2の実施の形態で説明した対象物識別装置10及び擬似脳活動データ計測装置230の実施例について説明する。
【実施例】
【0115】
手書き数字は書き手によって様々な癖があるため、それぞれの手書き数字がどの数字を意味するかの識別は、困難な画像識別問題の一つである。特に手書き文字の一部が遮蔽されている場合には、その認識は自動認識機械にとっては困難を極めるが、そのような状況でも人間の脳はどの数字かを何とか識別することができる。ここでは、人間の脳の代わりに十分なトレーニングセットを与え、十分な時間かけてトレーニングされた人工的神経回路網モデル(ANN)を疑似脳として用い、この疑似脳を、上記の第2の実施の形態で説明した方法により学習することによって、数字弁別の能力を獲得する対象物識別装置を製作した実施例について説明する。
【実施例】
【0116】
まず、図10に示すような、通常の手書き数字を示す画像データ{x(1),x(2),・・・x(N)}(基本数字画像データと呼ぶ)と、遮蔽された手書き数字を示す画像データ{ ̄x(1), ̄x(2),・・・ ̄x(N’)}(遮蔽数字画像データと呼ぶ)をトレーニングセットとして与え、正答率95%以上で正答するようにANNの学習を行った(ANNの出力層10個のうち一番大きな値を出力とする)。
【実施例】
【0117】
手書き文字のデータベースとしては、電子技術総合研究所(現・産業技術総合研究所)のETL6データベース(数字)、ETL7lデータベース(平仮名)を使い、文字としては、計算負荷の都合上14×14画素の画像にダウンサンプリングしたものを使った。したがって、{x(j)}、{ ̄x(j)}は、それぞれ、14×14=196次元のベクトルである。
【実施例】
【0118】
上記のトレーニング済みのANNを、擬似脳活動データ計測装置230のニューラルネットワークとして用いた。
【実施例】
【0119】
次に、この疑似脳の脳活動を表す中間層の60個のニューロンの出力を表わす擬似脳活動データと画像データの間の相関を、第1の実施の形態で説明した手法で計算する。その際のデータセットとしては、手書き数字を示す画像データ{x(1),x(2),・・・x(N)}、{ ̄x(1), ̄x(2),・・・ ̄x(N’)}と、それらに対応する中間層の各ニューロンの出力を表わす擬似脳活動データ{y(1),y(2),・・・y(N)}、{ ̄y(1), ̄y(2),・・・ ̄y(N’)}とを用いる。これらのデータ組に基づいて、相関を最大化する正準相関変数を画像特徴量として学習した。
【実施例】
【0120】
第1の実施の形態で説明したように、画像側、脳活動側の双方を高次元特徴空間に写像した後、それぞれの特徴空間の中のある方向a(1)及びb(1)への射影した対、aT(1)φ(x)、bT(1)Ψ(y)を考え、これらが最も相関の高い1次元の対となるようなa(1)及びb(1)を見つけることができる。それが第1正準相関変数の対である。図11(A)に示すように、実際にこの例について計算されたaT(1)φ(x)、bT(1)Ψ(y)の対は、良く相関していることが確認された(相関値=0.997)。なお、x軸が画像側、y軸が脳活動側の変数である。
【実施例】
【0121】
詳しくは、総計900個の手書き数字画像データのうち、500個の数字画像データをANNに入力したときの擬似脳活動データを使って上記の第一正準相関変数を決め、その決定に使わなかった残りの400個の手書き数字画像データについて正準相関変数の対を求めた。求められた正準相関変数対の値が図11(A)に示され、それぞれが何の数字(0~9)であるかが示されている。同様に図11(B)、図12(A)、(B)に、第2、3、4の正準相関変数の対を示す。どの対も非常に良く相関していることが分かった。
【実施例】
【0122】
また、多数の手書き数字画像データのうち、“0”を表す画像データには1番から40番までの背番号を、“1”を表す画像データには41番から80番の背番号を、というように、総計400個の手書き数字画像データに1番から400番までの背番号を付けて、図13(A)に、背番号の若い順に下から上へ、画像側の第1正準相関変数の値aT(1)φ(x)を横軸として示した。図13(B)は同様に第2正準相関変数の値aT(2)φ(x)を横軸に示したものである。
【実施例】
【0123】
正準相関変数の値は具体的にはカーネル関数の線形結合として以下の(10)式のように算出されるが、正準相関変数の値は、画像xを与える毎に計算できる値であるから、画像特徴量とみなせる。この画像特徴量が手書き数字の弁別に有効な特徴量であることは、上記図13(A)、(B)から理解できる。なぜなら、例えば、第一正準相関変数が-0.02より小さければ、手書き数字が、{1,4,7}または低い確率で{2,9}であることが分かり、第一正準相関変数が.01より大きければ、手書き数字が{0,5,6}または低い確率で{2,8}であることが分かる。第一正準相関変数でここまで限定した後、第2正準相関変数の値もみれば、さっき区別しきれなかった{1,4,7}をかなり確実に識別できる。
【実施例】
【0124】
【数9】
JP0005802916B2_000010t.gif
【実施例】
【0125】
このように、手書き数字の弁別をこなす疑似脳から学ぶ形で作られた正準相関変数は、有用な画像特徴量である。一方で、脳から直接は学ばない従来の画像特徴量である画像のPCA(主成分分析)の第1、第2成分を図示したのが図14(A)、(B)である。これらの成分はもとの画素数196次元から最も分散の大きな方向を取りだしたものである。しかし、図14(A)、(B)から分かるように、これら特徴量の値は異なる数字間で大幅に重なっていて、数字を識別するための画像特徴量として有用でないことが分かる。
【実施例】
【0126】
このように、脳から直接は学ばない従来の画像弁別アルゴリズムに対して、本発明で提案した脳から学ぶアルゴリズムの有意性が確認できた。
【実施例】
【0127】
次に、カーネル正準相関分析(KCCA)を使い脳から学んで構成した、相関が0.4以上となる全ての画像側の正準相関変数を画像特徴量として用いて、上記(9)式に示すカーネル関数を使った画像弁別アルゴリズムKCCA-SVMの性能を評価する。
【実施例】
【0128】
評価の課題は遮蔽への対応能力である。即ち、手書き文字の典型と考えられる、上記図10の左上部に示すような基本手書き数字(遮蔽なし)の分類がほぼ100%正しく出来るようにトレーニングされたSVM識別器の性能が、遮蔽を受けた手書き数字に対してどの程度低下するかをテストした。具体的には、与えられた遮蔽手書き数字が”5”であるかないかの2択問題で、テストした。
【実施例】
【0129】
なお、このように遮蔽文字でトレーニングを受けていないSVMやKCCA-SVMが遮蔽文字にどの程度対応できるのかがここでの評価であるが、ANNは遮蔽を受けた文字でも区別する能力のある“擬似脳”である、という想定なので、ANNのトレーニングセットには遮蔽文字を含み、遮蔽文字も識別できるようにANNが学習されている。
【実施例】
【0130】
まず、以下の(11)式で表されるカーネル関数を使用する従来のSVMの成績をみると、図15に示すように、その正解率は、手書き文字の遮蔽により100%から大きく落ち込む。
【実施例】
【0131】
【数10】
JP0005802916B2_000011t.gif
【実施例】
【0132】
一方、本発明で提案したKCCA-SVMでの正解率は、遮蔽の影響をほとんど受けず、ほぼ100%にとどまっている。どちらの弁別アルゴリズムも、SVMモデルのトレーニングセットとしては遮蔽を含まない基本手書き文字しか与えていないが、KCCA-SVMはその構成上、文字の識別をうまくやるための一般的指針を疑似脳から学んでいるので、数字への遮蔽に効果的に対応できていることがわかった。
【実施例】
【0133】
ここでは、基本文字群と、それを遮蔽という視覚上の妨害因子(ディストラクター)を加えた文字群との両方を正しく弁別できる疑似脳(ANN)を用意し、そのANNの遮蔽への対応能力を本発明で提案したKCCAを使って引き出すために、ANNへの刺激入力として、遮蔽文字を含む文字群を使用し、このときの脳活動を用いて正準相関変数を求めた。このやり方は、視覚弁別において、対応したい妨害因子が何であるかが初めから決まっていて、かつ脳がそれに対応できることもあらかじめわかっている場合に具体的に適用できる。
【実施例】
【0134】
一方、脳は、一般に遮蔽だけでなくインクによる汚れやライティング条件の変化など多種多様な妨害因子への対応能力を持っているはずなので、予め特定の妨害因子を想定してその対応能力だけを脳から学ぼうとするのでなく、脳のいくつかの妨害因子への対応能力を、妨害因子の事前特定なしに学ぶことができれば、脳から学ぶ方法としてさらに有用であると考えられる。
【実施例】
【0135】
そこで、妨害因子の事前特定なしに、種々の妨害因子への対応能力を学習可能かどうかを調べた。妨害因子を“遮蔽”と特定しないので、KCCAで正準相関変数を求める際のANNへの入力刺激(以下、相関変数抽出刺激と呼ぶこととする。)として遮蔽された数字は使えない。代わりに、ここでは図16に示すような手書き平仮名(およびそれに回転、反転、遮蔽を加えたもの)の集まりを、相関変数抽出刺激として使うことにする。なお、この手書き平仮名(およびそれに回転、反転、遮蔽を加えたもの)が、関連感覚データの一例である。上記図16に示す相関変数抽出刺激に基づいて、上と同じ手続きで正準相関変数を求め、画像側の正準相関変数を画像特徴量として使ったKCCA-SVMの手書き数字(遮蔽されたものを含14の識別性能を調べた。上記図15に示す通り、上記の手書き平仮名を入力刺激とした場合でも極めて高い識別性能を有することが分かった。このことは、妨害要因をあらかじめ正確に知らなくても、脳が備えている妨害要因への対応能力をKCCAで読み取り、その能力を身に付けたSVM分類器(KCCA-SVM)を構築できることを意味し、本発明で提案した手法のさらなる有用性が示された。
【符号の説明】
【0136】
10 対象物識別装置
14 コンピュータ
20 画像脳信号記憶部
22 画像特徴量学習部
24 学習結果記憶部
26 対象物検出部
30 脳活動データ計測装置
32 キャップ型電極
34 表示装置
36 コンピュータ
38、238 画像脳信号記憶部
50 特徴量算出部
52 識別モデル学習部
54 識別モデル記憶部
56 特徴量算出部
58 識別部
230 擬似脳活動データ計測装置
240 ニューラルネットワーク学習部
244 ニューラルネットワーク識別部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図7】
5
【図8】
6
【図9】
7
【図11】
8
【図12】
9
【図13】
10
【図14】
11
【図15】
12
【図6】
13
【図10】
14
【図16】
15