TOP > 国内特許検索 > 画像分類装置および画像分類プログラム > 明細書

明細書 :画像分類装置および画像分類プログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5229744号 (P5229744)
登録日 平成25年3月29日(2013.3.29)
発行日 平成25年7月3日(2013.7.3)
発明の名称または考案の名称 画像分類装置および画像分類プログラム
国際特許分類 G06F  17/30        (2006.01)
G06T   1/00        (2006.01)
FI G06F 17/30 210D
G06T 1/00 200A
G06F 17/30 350C
G06F 17/30 170B
請求項の数または発明の数 8
全頁数 37
出願番号 特願2009-544662 (P2009-544662)
出願日 平成20年12月1日(2008.12.1)
国際出願番号 PCT/JP2008/071803
国際公開番号 WO2009/072466
国際公開日 平成21年6月11日(2009.6.11)
優先権出願番号 2007312371
優先日 平成19年12月3日(2007.12.3)
優先権主張国 日本国(JP)
審査請求日 平成23年11月24日(2011.11.24)
特許権者または実用新案権者 【識別番号】504173471
【氏名又は名称】国立大学法人北海道大学
発明者または考案者 【氏名】長谷山 美紀
個別代理人の代理人 【識別番号】100083806、【弁理士】、【氏名又は名称】三好 秀和
【識別番号】100101247、【弁理士】、【氏名又は名称】高橋 俊一
審査官 【審査官】田中 幸雄
参考文献・文献 特開2006-344155(JP,A)
渡辺隆志ほか,エッジを考慮した類似画像分類の高精度化に関する考察,映像情報メディア学会技術報告,日本,(社)映像情報メディア学会,2007年 2月22日,第31巻 第10号,7-10頁
堀田政二ほか,次元圧縮とクラスタリングに基づく画像の近似kNN検索,映像情報メディア学会誌,日本,(社)映像情報メディア学会,2001年12月 1日,第55巻 第12号,1665-1668頁
調査した分野 G06F 17/30
G06T 1/00
特許請求の範囲 【請求項1】
複数の画像データを、類似した画像毎に分類する画像分類装置であって、
複数の画像データが記憶された画像データベースと、
前記複数の画像データのそれぞれについて、画像全体の特徴量を算出するとともに、前記画像データのエッジを検出し、検出されたエッジ部分の特徴量を算出する特徴量算出部と、
前記画像全体における特徴量に基づいて、前記複数の画像データを複数のクラスタに分類する第1のクラスタリング部と、
前記エッジ部分の前記特徴量に基づいて、前記第1のクラスタリング部によって分類された複数のクラスタを、更に複数のクラスタに分類する第2のクラスタリング部と、
前記複数の画像データのそれぞれについて被写体を構成する画素を決定し、前記第2のクラスタリング部によって分類された複数のクラスタを、前記被写体を構成する画素に基づいて統合するクラスタ統合部と、
前記複数の画像データについてそれぞれのサムネイルをランダムに配置し、前記画像データの前記画像全体の特徴量、前記エッジ部分の特徴量、前記被写体を構成する画素の特徴量および前記クラスタ統合部により生成された前記画像データのクラスタに基づいて、前記各サムネイルの座標を更新して表示するとともに、前記各サムネイルの移動量を計算し、前記各サムネイルの移動量が0に収束するまで、座標を更新して表示する処理を繰り返す表示部
とを備える画像分類装置。
【請求項2】
クエリ画像データの特徴ベクトルを算出するクエリ画像特徴量算出部と、
前記クエリ画像データの前記特徴ベクトルに基づいて、前記クラスタ統合部により生成されたクラスタから、前記クエリ画像データの所属するクラスタを決定するクラスタ決定部
とを備える請求項1に記載の画像分類装置。
【請求項3】
前記特徴ベクトルは、画像全体における色コリログラムと、エッジ部分の色コリログラムと、被写体領域の色ヒストグラムと色コリログラムをパラメータとして有し、
前記クエリ画像特徴量算出部は、前記クエリ画像データの前記画像全体における色コリログラムと、前記クエリ画像データの前記エッジ部分の色コリログラムと、前記クエリ画像データの前記被写体領域の色ヒストグラムと色コリログラムを算出して、前記クエリ画像データの特徴ベクトルを算出する
請求項2に記載の画像分類装置。
【請求項4】
前記クラスタ決定部は、前記クラスタ統合部により生成された各クラスタに属する画像データの特徴ベクトルの平均を算出し、前記クエリ画像データの特徴ベクトルとの距離を最小とするクラスタをクエリ画像の所属クラスタとする
請求項3に記載の画像分類装置。
【請求項5】
複数の画像データを、類似した画像毎に分類する画像分類プログラムであって、
コンピュータを、
画像データベースに記憶された複数の画像データのそれぞれについて、画像全体の特徴量を算出するとともに、前記画像データのエッジを検出し、検出されたエッジ部分の特徴量を算出する特徴量算出手段と、
前記画像全体における特徴量に基づいて、前記複数の画像データを複数のクラスタに分類する第1のクラスタリング手段と、
前記エッジ部分の前記特徴量に基づいて、前記第1のクラスタリング手段によって分類された複数のクラスタを、更に複数のクラスタに分類する第2のクラスタリング手段と、
前記複数の画像データのそれぞれについて被写体を構成する画素を決定し、前記第2のクラスタリング手段によって分類された複数のクラスタを、前記被写体を構成する画素に基づいて統合するクラスタ統合手段と、
前記複数の画像データについてそれぞれのサムネイルをランダムに配置し、前記画像データの前記画像全体の特徴量、前記エッジ部分の特徴量、前記被写体を構成する画素の特徴量および前記クラスタ統合手段により生成された前記画像データのクラスタに基づいて、前記各サムネイルの座標を更新して表示するとともに、前記各サムネイルの移動量を計算し、前記各サムネイルの移動量が0に収束するまで、座標を更新して表示する処理を繰り返す表示手段
として機能させる画像分類プログラム。
【請求項6】
クエリ画像データの特徴ベクトルを算出するクエリ画像特徴量算出手段と、
前記クエリ画像データの前記特徴ベクトルに基づいて、前記クラスタ統合手段により生成されたクラスタから、前記クエリ画像データの所属するクラスタを決定するクラスタ決定手段
として、更に前記コンピュータを機能させる請求項5に記載の画像分類プログラム。
【請求項7】
前記特徴ベクトルは、画像全体における色コリログラムと、エッジ部分の色コリログラムと、被写体領域の色ヒストグラムと色コリログラムをパラメータとして有し、
前記クエリ画像特徴量算出手段は、前記クエリ画像データの前記画像全体における色コリログラムと、前記クエリ画像データの前記エッジ部分の色コリログラムと、前記クエリ画像データの前記被写体領域の色ヒストグラムと色コリログラムを算出して、前記クエリ画像データの特徴ベクトルを算出する
請求項6に記載の画像分類プログラム。
【請求項8】
前記クラスタ決定手段は、前記クラスタ統合手段により生成された各クラスタに属する画像データの特徴ベクトルの平均を算出し、前記クエリ画像データの特徴ベクトルとの距離を最小とするクラスタをクエリ画像の所属クラスタとする
請求項7に記載の画像分類プログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、複数の画像データを、分類する画像分類装置および画像分類プログラムに関する。
【背景技術】
【0002】
近年、ディジタルカメラやイメージスキャナの普及、及び記録媒体の大容量化に伴い、ユーザが保持するディジタル画像の数は、急速に増加している。このような状況において、蓄積された大量の画像群から所望の画像を効率的に閲覧するために、画像検索技術の必要性が高まっている。代表的な検索手法として、ユーザの保持する検索要求画像(クエリ画像)とデータベース中に存在する画像との類似度に基づく手法がある(例えば、非特許文献1および非特許文献2参照)。これらの方法を用いることで、ユーザは、所望の画像をデータベースから取得することができる。
【0003】
また、クエリ画像に類似する画像を検索する方法として、クエリ画像と他の画像データとの画像間距離を計算して、画像間距離の小さいものから順に類似画像として抽出する画像検索装置がある(例えば、特許文献1参照)。上記特許文献1においては、クエリ画像を保持していなくとも、ユーザがクエリ画像を描画することにより、ユーザは、所望の画像を検索することができる。
【0004】

【特許文献1】特開2000-148795号公報
【非特許文献1】M.J. Swain and D.H. Ballard, “Color indexing,” Int. J. Comput. Vision, vol.7, no.1, pp.11-32, 1991.
【非特許文献1】中川俊昭、原武史、藤田広志、“局所的なパターンマッチングによる画像検索法、” 信学論(D-II) , vol.J85-D-II, no.1, pp.149-152, Jan. 2002.
【発明の開示】
【0005】
しかしながら、上記に記載した方法は、ユーザがクエリ画像を保持していることを前提としている。従って、クエリ画像を保持していない場合や、検索要求が不明確である場合、ユーザは、検索することが困難となる。特許文献1においては、ユーザがクエリ画像を描画するので、ユーザが上手く描画できない場合には、ユーザが所望の画像を検索することが困難になってしまう。また、ユーザが所望の画像が明確でない場合には、特許文献1に記載の方法を適用することはできない。
【0006】
このような場合、サムネイル表示を用いてユーザにデータベース中に存在する全ての画像を提示することで、ユーザの画像検索作業が補助されていた。しかしながら、近年のデータベースの大規模化に伴い、データベース中に存在する全ての画像を一画面に表示することができなくなっている。その結果、サムネイル表示により画像検索の補助することは困難となっている。
【0007】
したがって、データベース中に存在する画像を自動で分類し、ユーザに分類結果を効果的に提示する技術が必要となる。すなわち、データベース中の画像を事前に類似した画像群に分類し、その分類結果を提示することで、ユーザはデータベースに含まれる画像を直観的に把握することができる。これにより、クエリ画像を保持していない場合や明確な検索意図が存在しない場合にも、ユーザが効率的に画像の検索することのできる技術が期待されている。
【0008】
従って本発明の目的は、複数の画像データを類似した画像毎に分類する画像分類装置および画像分類プログラムを提供することである。
【0009】
上記課題を解決するために、本発明の第1の特徴は、複数の画像データを、類似した画像毎に分類する画像分類装置に関する。即ち本発明の第1の特徴に係る画像分類装置は、複数の画像データが記憶された画像データベースと、複数の画像データのそれぞれについて、画像全体の特徴量を算出するとともに、画像データのエッジを検出し、検出されたエッジ部分の特徴量を算出する特徴量算出部と、画像全体における特徴量に基づいて、複数の画像データを複数のクラスタに分類する第1のクラスタリング部と、エッジ部分の特徴量に基づいて、第1のクラスタリング部によって分類された複数のクラスタを、更に複数のクラスタに分類する第2のクラスタリング部と、複数の画像データのそれぞれについて被写体を構成する画素を決定し、第2のクラスタリング部によって分類された複数のクラスタを、被写体を構成する画素に基づいて統合するクラスタ統合部と、複数の画像データについてそれぞれのサムネイルをランダムに配置し、画像データの画像全体の特徴量、エッジ部分の特徴量、被写体を構成する画素の特徴量およびクラスタ統合部により生成された画像データのクラスタに基づいて、各サムネイルの座標を更新して表示するとともに、各サムネイルの移動量を計算し、各サムネイルの移動量が0に収束するまで、座標を更新して表示する処理を繰り返す表示部とを備える。
【0010】
このような第1の特徴に係る画像分類装置によれば、画像中の色とその分布に着目し、多段階に処理することで、高精度な画像の分類を実現することができる。具体的には、画像全体の特徴量に基づいて第1のクラスタリング部によるクラスタリングをした後、精度を上げるために、画像中の重要な特徴であるエッジに着目して、第2のクラスタリング部によるクラスタリング処理する。さらに、過分割による影響を抑制するため、画像データ中の被写体から得られた特徴量に基づいて、クラスタを統合する。本発明の第1の特徴に係る画像分類装置は、まず画像全体の特徴量に基づいて大まかに分類する。次に、画像を特徴付けるエッジ部分に注目して、更に階層的に詳細に分類する。更に、各分類により過分割されたクラスタを、被写体の特徴に基づいて、被写体ごとに統合する。最後に被写体に基づいてクラスタを統合することにより、ユーザの検索キーワードに合致しやすいクラスタを生成できる。
【0011】
ここで、複数の画像データについてそれぞれのサムネイルを任意に配置し、画像データの画像全体の特徴量、エッジ部分の特徴量、被写体を構成する画素の特徴量およびクラスタ統合部14により決定された画像データのクラスタに基づいて、各サムネイルの座標を更新して表示するとともに、各サムネイルの移動量を計算し、各サムネイルの移動量が0に収束するまで、座標を更新して表示する処理を繰り返す表示部を備えても良い。
【0012】
このような画像分類装置によれば、画像データベース中の画像データを直観的に把握することができるので、クエリ画像を保持していない場合や、明確な検索意図が存在しない場合においても、所望する画像データを検索することが可能となる。
【0013】
ここで、特徴量算出部は、複数の画像データのそれぞれについて、画像データにおける輝度値に基づいて、画像全体における色コリログラムを算出し、他の画像データの画像全体との色コリログラムの距離を、画像全体の特徴量として算出するとともに、エッジ部分における色コリログラムを算出し、他の画像データのエッジ部分との色コリログラムの距離を、エッジ部分の特徴量として算出する。
【0014】
これによれば、画像データ中の色の量だけではなく、空間的な分布も考慮して、画像データの特徴量を算出することができる。
【0015】
また、第1のクラスタリング部は、画像全体における特徴量に基づいて、全てのクラスタによるクラスタリング誤差が閾値内になるように、クラスタの数と、クラスタに属する画像データを決定する。第2のクラスタリング部は、エッジ部分の特徴量に基づいて、第1のクラスタリング部によって分類された各クラスタのクラスタ内誤差が閾値内になるように、クラスタの数と、クラスタに属する画像データを決定する。
【0016】
このように、多段階にクラスタリングすることにより、高精度のクラスタリングを実行することができる。
【0017】
クラスタ統合部は、画像データに任意の境界線を設け、境界線によって得られる第1の領域と第2の領域における色ヒストグラム間の距離を算出し、境界線を動かすことによって色ヒストグラム間の距離が大きく変化する境界線を、構図を決定するための境界線とし、該境界線外を構成する画素の代表色との色差が閾値よりも大きな画素を、被写体を構成している画素とする。ここで、クラスタ統合部は更に、被写体を構成する画素の色コリログラムと色ヒストグラムを算出し、算出された色コリログラムと色ヒストグラムに基づいて、第2のクラスタリング部によって分類された複数のクラスタのうち、任意の2つのクラスタの非類似度が、閾値よりも高くなるまで、クラスタの統合を繰り返す。
【0018】
このように、被写体における特徴量が類似しているクラスタを統合することにより、過分割を抑制し、ユーザに把握させやすい画像分類を実現することができる。
【0019】
クエリ画像データの特徴ベクトルを算出するクエリ画像特徴量算出部と、クエリ画像データの特徴ベクトルに基づいて、クラスタ統合部により生成されたクラスタから、クエリ画像データの所属するクラスタを決定するクラスタ決定部とを備えても良い。
【0020】
このような画像分類装置によれば、複数の画像データから、類似する画像を抽出することができる。
【0021】
具体的には、特徴ベクトルは、画像全体における色コリログラムと、エッジ部分の色コリログラムと、被写体領域の色ヒストグラムと色コリログラムをパラメータとして有する。ここで、クエリ画像特徴量算出部は、クエリ画像データの画像全体における色コリログラムと、クエリ画像データのエッジ部分の色コリログラムと、クエリ画像データの被写体領域の色ヒストグラムと色コリログラムを算出して、クエリ画像データの特徴ベクトルを算出する。また、クラスタ決定部は、クラスタ統合部により生成された各クラスタに属する画像データの特徴ベクトルの平均を算出し、クエリ画像データの特徴ベクトルとの距離を最小とするクラスタをクエリ画像の所属クラスタとする。
【0022】
本発明の第2の特徴は、複数の画像データを、類似した画像毎に分類する画像分類プログラムに関する。即ち本発明の第2の特徴に係る画像分類プログラムは、コンピュータを、画像データベースに記憶された複数の画像データのそれぞれについて、画像全体の特徴量を算出するとともに、画像データのエッジを検出し、検出されたエッジ部分の特徴量を算出する特徴量算出手段と、画像全体における特徴量に基づいて、複数の画像データを複数のクラスタに分類する第1のクラスタリング手段と、エッジ部分の特徴量に基づいて、第1のクラスタリング手段によって分類された複数のクラスタを、更に複数のクラスタに分類する第2のクラスタリング手段と、複数の画像データのそれぞれについて被写体を構成する画素を決定し、第2のクラスタリング手段によって分類された複数のクラスタを、被写体を構成する画素に基づいて統合するクラスタ統合手段と、複数の画像データについてそれぞれのサムネイルをランダムに配置し、画像データの前記画像全体の特徴量、前記エッジ部分の特徴量、被写体を構成する画素の特徴量およびクラスタ統合手段により生成された画像データのクラスタに基づいて、各サムネイルの座標を更新して表示するとともに、各サムネイルの移動量を計算し、各サムネイルの移動量が0に収束するまで、座標を更新して表示する処理を繰り返す表示手段として機能させる。
【0023】
ここで、複数の画像データについてそれぞれのサムネイルを任意に配置し、画像データの画像全体の特徴量、エッジ部分の特徴量および被写体を構成する画素の特徴量に基づいて、各サムネイルの座標を更新して表示するとともに、各サムネイルの移動量を計算し、各サムネイルの移動量が0に収束するまで、座標を更新して表示する処理を繰り返す表示手段として、更にコンピュータを機能させても良い。
【0024】
特徴量算出手段は、複数の画像データのそれぞれについて、画像データにおける輝度値に基づいて、画像全体における色コリログラムを算出し、他の画像データの画像全体との色コリログラムの距離を、画像全体の特徴量として算出するとともに、エッジ部分におけるコリログラムを算出し、他の画像データのエッジ部分との色コリログラムの距離を、エッジ部分の特徴量として算出しても良い。ここでは、色コリログラムに基づいて特徴量を算出する場合について説明するが、色コリログラムと色ヒストグラムを用いて特徴量を算出しても良い。
【0025】
第1のクラスタリング手段は、画像全体における特徴量に基づいて、全てのクラスタによるクラスタリング誤差が閾値内になるように、クラスタの数と、クラスタに属する画像データを決定しても良い。第2のクラスタリング手段は、エッジ部分の特徴量に基づいて、第1のクラスタリング手段によって分類された各クラスタのクラスタ内誤差が閾値内になるように、クラスタの数と、クラスタに属する画像データを決定しても良い。
【0026】
クラスタ統合手段は、画像データに任意の境界線を設け、境界線によって得られる第1の領域と第2の領域における色ヒストグラム間の距離を算出し、境界線を動かすことによって色ヒストグラム間の距離が大きく変化する境界線を、構図を決定するための境界線とし、該境界線外を構成する画素の代表色との色差が閾値よりも大きな画素を、被写体を構成している画素としても良い。ここで、クラスタ統合手段は更に、被写体を構成する画素の色コリログラムと色ヒストグラムを算出し、算出された色コリログラムと色ヒストグラムに基づいて、第2のクラスタリング手段によって分類された複数のクラスタのうち、任意の2つのクラスタの非類似度が、閾値よりも高くなるまで、クラスタの統合を繰り返しても良い。
【0027】
また、クエリ画像データの特徴ベクトルを算出するクエリ画像特徴量算出手段と、クエリ画像データの特徴ベクトルに基づいて、クラスタ統合手段により生成されたクラスタから、クエリ画像データの所属するクラスタを決定するクラスタ決定手段として、更にコンピュータを機能させても良い。
【0028】
ここで、特徴ベクトルは、画像全体における色コリログラムと、エッジ部分の色コリログラムと、被写体領域の色ヒストグラムと色コリログラムをパラメータとして有し、クエリ画像特徴量算出手段は、クエリ画像データの画像全体における色コリログラムと、クエリ画像データのエッジ部分の色コリログラムと、クエリ画像データの被写体領域の色ヒストグラムと色コリログラムを算出して、クエリ画像データの特徴ベクトルを算出しても良い。
【0029】
クラスタ決定手段は、クラスタ統合手段により生成された各クラスタに属する画像データの特徴ベクトルの平均を算出し、クエリ画像データの特徴ベクトルとの距離を最小とするクラスタをクエリ画像の所属クラスタとしても良い。
【0030】
本発明によれば、複数の画像データを類似した画像毎に分類する画像分類装置および画像分類プログラムを提供することができる。
【図面の簡単な説明】
【0031】
【図1】図1は、本発明の最良の実施の形態に係る画像分類装置の機能ブロック図である。
【図2】図2は、本発明の最良の実施の形態に係る画像分類方法の概略を説明する図である。
【図3】図3は、本発明の最良の実施の形態に係る画像分類装置のハードウェア構成図である。
【図4】図4は、本発明の最良の実施の形態に係る画像分類装置の特徴量算出処理を説明するフローチャートである。
【図5A】図5Aは、本発明の最良の実施の形態に係る画像分類装置に用いられる色ヒストグラムと色コリログラムを説明する図である。(その1)
【図5B】図5Bは、本発明の最良の実施の形態に係る画像分類装置に用いられる色ヒストグラムと色コリログラムを説明する図である。(その2)
【図6】図6は、本発明の最良の実施の形態に係る画像分類装置において、第1のクラスタリング部と第2のクラスタリング部によるクラスタ分割を説明する図である。
【図7】図7は、本発明の最良の実施の形態に係る画像分類装置の第1のクラスタリング処理を説明するフローチャートである。
【図8】図8は、本発明の最良の実施の形態に係る画像分類装置の第2のクラスタリング処理を説明するフローチャートである。
【図9】図9は、本発明の最良の実施の形態に係る画像分類装置の第2のクラスタリング部において、Sobelフィルタによるエッジ強度の定義に用いられる画素の位置を説明する図である。
【図10】図10は、本発明の最良の実施の形態に係る画像分類装置のクラスタ統合処理を説明するフローチャートである。
【図11A】図11Aは、本発明の最良の実施の形態に係る画像分類装置のクラスタ統合部における構図を説明する図である。(その1)
【図11B】図11Bは、本発明の最良の実施の形態に係る画像分類装置のクラスタ統合部における構図を説明する図である。(その2)
【図11C】図11Cは、本発明の最良の実施の形態に係る画像分類装置のクラスタ統合部における構図を説明する図である。(その3)
【図11D】図11Dは、本発明の最良の実施の形態に係る画像分類装置のクラスタ統合部における構図を説明する図である。(その4)
【図12A】図12Aは、本発明の最良の実施の形態に係る画像分類装置のクラスタ統合部における境界線L1を説明する図である。
【図12B】図12Bは、本発明の最良の実施の形態に係る画像分類装置のクラスタ統合部における境界線L2を説明する図である。
【図12C】図12Cは、本発明の最良の実施の形態に係る画像分類装置のクラスタ統合部における境界線L3を説明する図である。
【図12D】図12Dは、本発明の最良の実施の形態に係る画像分類装置のクラスタ統合部における境界線L4を説明する図である。
【図13】図13は、本発明の最良の実施の形態に係る画像分類装置の表示処理を説明するフローチャートである。
【図14】図14は、本発明の最良の実施の形態に係る画像分類装置の表示部における透視変換を説明する図である。
【図15】図15は、本発明の最良の実施の形態に係る画像分類装置の表示部によって表示される初期画面の一例である。
【図16】図16は、本発明の最良の実施の形態に係る画像分類装置の表示部によって表示される結果画面の一例である。
【図17A】図17Aは、本発明の最良の実施の形態に係る画像分類装置の表示部におけるサムネイルの移動を説明する図である。(その1)
【図17B】図17Bは、本発明の最良の実施の形態に係る画像分類装置の表示部におけるサムネイルの移動を説明する図である。(その2)
【図17C】図17Cは、本発明の最良の実施の形態に係る画像分類装置の表示部におけるサムネイルの移動を説明する図である。(その3)
【図18】図18は、本発明の変形例に係る画像分類装置の機能ブロック図である。
【図19】図19は、本発明の変形例に係る画像分類方法の概略を説明する図である。
【図20】図20は、本発明の変形例に係る画像分類装置のクエリ画像特徴量算出処理を説明するフローチャートである。
【図21】図21は、本発明の変形例に係る画像分類装置の所属クラスタ決定処理を説明するフローチャートである。
【図22】図22は、本発明の変形例に係る画像分類装置の表示部によって表示される結果画面の一例である。

【発明を実施するための最良の形態】
【0032】
次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。
【0033】
(最良の実施の形態)
本発明の最良の実施の形態に係る画像分類装置1は、複数の画像データを、類似した画像毎に分類する。本発明の最良の実施の形態に係る画像分類装置1は、画像データベース51中に存在する画像データを類似した画像毎に分類し、得られる分類結果に基づいて画像を検索する。さらに、画像分類装置1は、分類、検索の結果を3次元空間上で可視化を行い、提示する。分類・検索結果を3次元空間上に配置することで、画像分類装置1は、空間的な距離により画像間の類似性を理解することが可能なユーザインターフェースを実現することができる。
【0034】
(画像分類装置の概要)
図2を参照して、本発明の最良の実施の形態に係る画像分類装置1の処理の概要を説明する。
【0035】
まず、ステップS1において、記憶装置107から、画像データベース51の画像データが読み出される。次に、ステップS2において、ステップS1で読み出された画像データベースの各画像データについて、特徴量が算出される。この特徴量は、画像全体の画素から算出した特徴量と、画像におけるエッジ部分の画素から算出した特徴量を含む。
【0036】
次にステップS3ないしステップS5において、画像分類装置1は、抽出された特徴量に基づいて多段階にクラスタリングする。このとき画像分類装置1は、色や構造などに基づいて、画像を分類する。具体的には、ステップS3において画像分類装置1は、画像全体の色分布に係る特徴量に基づいて、複数の画像データを、複数のクラスタに分割する。更にステップS4において画像分類装置1は、画像のエッジ部分の色分布に係る特徴量に基づいて、ステップS3で分類されたクラスタを、更に分割する。ステップS5において画像分類装置1は、被写体部の色分布と、色の出現頻度に基づいて、ステップS4において過剰に分割されたクラスタを統合する。
【0037】
ステップS6において画像分類装置1は、画像データベース51の各画像が分類された結果を、表示装置105に表示する。この際、各画像の特徴量と、ステップS3ないしステップS5の処理によるクラスタリング結果を用いて、画像分類装置1は、3次元空間上で分類結果を可視化する。
【0038】
本発明の最良の実施の形態に係る画像分類装置1の分類部10は、画像中の色の分布に着目し、色コリログラムを用いてK-means法によるクラスタリングをする(ステップS3)。このとき得られる分類結果について画像分類装置1は、画像中のさらに詳細な色分布を考慮するため、エッジ画素を対象として算出した色コリログラムを用い、各クラスタを分割する(ステップS4)。ここで、エッジ画素とは、Sobelフィルタで取得したエッジであって、被写体のエッジとは限らない。このとき、過分割の影響を抑制するため、画像分類装置1は、被写体から得られた色ヒストグラムと色コリログラムを用いてクラスタの再統合処理を加える(ステップS5)。これらの各処理において特徴量間の距離を算出する際には、色コリログラム間の2次形式距離が用いられる。これにより得られる各画像の特徴量と所属するクラスタ情報を用いて、画像分類装置1は、表示部20において、分類結果を3次元空間上で可視化する(ステップS6)。
ここで、ステップS3およびステップS4においては、色コリログラムのみを用いて処理する場合について説明したが、色ヒストグラムだけを用いても良いし、色コリログラムと色ヒストグラムを用いても良い
【0039】
(画像分類装置のハードウェア構成)
図3に示すように、本発明の最良の実施の形態に係る画像分類装置1は、中央処理制御装置101、ROM(Read Only Memory)102、RAM(Random Access Memory)103及び入出力インタフェース109を備える。これらは、バス110を介して接続されている。入出力インタフェース109には、入力装置104、表示装置105、通信制御装置106、記憶装置107及びリムーバブルディスク108が接続されている。
【0040】
中央処理制御装置101は、入力装置104からの入力信号に基づいてROM102から画像分類装置1を起動するためのブートプログラムを読み出して実行する。中央処理制御装置101は、更に記憶装置107に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置101は、入力装置104や通信制御装置106などの入力信号に基づいて、各種装置の制御を行ったり、RAM103や記憶装置107などに記憶されたプログラム及びデータを読み出してRAM103にロードする。また、中央処理制御装置101は、RAM103から読み出されたプログラムのコマンドに基づいて、データの計算又は加工など、後述する一連の処理を実現する処理装置である。
【0041】
入力装置104は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されている。入力装置104は、操作者の操作に基づいて入力信号を作成し、入出力インタフェース109及びバス110を介して中央処理制御装置101に送信する。表示装置105は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどである。表示装置105は、中央処理制御装置101からバス110及び入出力インタフェース109を介して表示装置105において表示させる出力信号を受信し、例えば中央処理制御装置101の処理結果などを表示する装置である。通信制御装置106は、LANカードやモデムなどの装置である。通信制御装置106は、画像分類装置1をインターネットやLANなどの通信ネットワークに接続する装置である。通信制御装置106を介して通信ネットワークと送受信したデータは入力信号又は出力信号として、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
【0042】
記憶装置107は半導体記憶装置や磁気ディスク装置である。記憶装置107には、中央処理制御装置101で実行されるプログラムやデータが記憶されている。リムーバブルディスク108は、光ディスクやフレキシブルディスクのことである。ディスクドライブによって読み書きされた信号は、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
【0043】
本発明の最良の実施の形態に係る画像分類装置1の記憶装置107には、画像分類プログラムが記憶されるとともに、画像データベース51が記憶される。又、画像分類プログラムが画像分類装置1の中央処理制御装置101に読み込まれ実行されることによって、分類部10および表示部20が、画像分類装置1に実装される。
【0044】
(画像分類装置の機能ブロック)
図1に示すように、本発明の最良の実施の形態に係る画像分類装置1は、画像データベース51、分類部10および表示部20を備える。分類部10は、特徴量算出部11、第1のクラスタリング部12、第2のクラスタリング部13およびクラスタ統合部14を備える。
【0045】
画像データベース51には、複数の画像データが記憶される。この画像データベースに記憶される画像データは、本発明の最良の実施の形態に係る画像分類装置1によって分類される対象となる。画像データベース51には、各画像データについて、後述する処理によって算出される特徴量や、クラスタの識別子を含むクラスタの情報などが関連づけられても良い。
【0046】
特徴量算出部11は、画像データベース51に記憶された複数の画像データのそれぞれについて、画像全体の特徴量を算出する。さらに特徴量算出部11は、画像データのエッジを検出し、検出されたエッジ部分の特徴量を算出する。ここで、特徴量算出部11は、複数の画像データのそれぞれについて、画像データにおける輝度値に基づいて、色コリログラムを算出する。特徴量算出部11は、他の画像データとの色コリログラムの距離を、特徴量として算出する。画像全体の画素から算出した特徴量は、画像におけるエッジ部分の画素から算出した特徴量と、画像全体の画素のうち、エッジ部分と排他な画素から算出した特徴量と、を加算することによって、算出されても良い。
ここで、本発明の特徴量算出部11は、各画像データの色コリログラムに基づいて算出する場合について説明するが、色ヒストグラムを用いても良いし、色ヒストグラムと色コリログラムの二つを用いても良い。
【0047】
第1のクラスタリング部12は、画像全体における特徴量に基づいて、複数の画像データを複数のクラスタに分類する。第1のクラスタリング部12は、画像全体における特徴量に基づいて、全てのクラスタによるクラスタリング誤差が閾値内になるように、クラスタの数と、クラスタに属する画像データを決定する。
【0048】
第2のクラスタリング部13は、エッジ部分の特徴量に基づいて、第1のクラスタリング部12によって分類された複数のクラスタを、更に複数のクラスタに分類する。第2のクラスタリング部13は、エッジ部分の特徴量に基づいて、第1のクラスタリング部12によって分類された各クラスタのクラスタ内誤差が閾値内になるように、クラスタの数と、クラスタに属する画像データを決定する。
【0049】
クラスタ統合部14は、複数の画像データのそれぞれについて画像の構図から被写体を構成する画素を決定し、第2のクラスタリング部13によって分類された複数のクラスタを、被写体を構成する画素に基づいて統合する。クラスタ統合部14は、画像データに任意の境界線を設け、境界線によって得られる第1の領域と第2の領域における色ヒストグラム間の距離を算出する。クラスタ統合部14は、境界線を動かすことによって色ヒストグラム間の距離が大きく変化する境界線を、構図を決定するための境界線とする。ここでクラスタ統合部14は、この境界線外を構成する画素の代表色との色差が閾値よりも大きな画素を、被写体を構成している画素とする。クラスタ統合部14は更に、被写体を構成する画素の色コリログラムと色ヒストグラムを算出する。クラスタ統合部14は、算出された色コリログラムと色ヒストグラムに基づいて、第2のクラスタリング部13によって分類された複数のクラスタのうち、任意の2つのクラスタの非類似度が、閾値よりも高くなるまで、クラスタの統合を繰り返す。
【0050】
表示部20は、分類部10に依って分類された画像データを、表示装置105に可視的に表示する。表示部20は、複数の画像データについてそれぞれのサムネイルを任意に配置する。更に表示部20は、画像全体の特徴量、エッジ部分の特徴量、被写体を構成する画素の特徴量およびクラスタ統合部14により決定された画像データのクラスタに基づいて、各サムネイルの座標を更新して表示するとともに、各サムネイルの移動量を計算する。表示部20は、各サムネイルの移動量が0に収束するまで、座標を更新して表示する処理を繰り返す。表示部20は、画像全体の色コリログラム、エッジ部分の色コリログラムおよび被写体領域における色コリログラムから、各画像データ間の距離を定義する。表示部20は、この各画像データ間の距離に基づいて、サムネイルを移動させながら、表示装置105に表示する。本発明の最良の実施の形態においては、色コリログラムに基づいて各画像データ間の距離を算出する場合について説明するが、色ヒストグラムを用いても良いし、色ヒストグラムと色コリログラムの二つを用いても良い。
【0051】
(特徴量算出部)
本発明の最良の実施の形態に係る画像分類装置1は、カラー画像を分類の対象とし、画像中の色に基づく特徴を用いて画像を自動的に分類する。画像中の色を表現する特徴として、一般に色ヒストグラムが用いられる。しかしながら、色ヒストグラムを用いた場合、画像中の色の空間的な分布については考慮することができない。そこで、本発明の最良の実施の形態に係る画像分類装置1は、画像中の色の分布について考慮することが可能な特徴として、色コリログラムに着目する。色ヒストグラムに代えて、この色コリログラムを用いることで、色の空間的な分布の差異が考慮され、高精度な画像の自動分類が実現される。本発明の最良の実施の形態においては、色コリログラムに基づいて分類する場合について説明するが、色ヒストグラムを用いても良いし、色ヒストグラムと色コリログラムの二つを用いても良い。
【0052】
図4を参照して、特徴量算出部11の処理について詳述する。図4に示す例では、色ヒストグラムおよび色コリログラムに基づいて特徴量を算出する場合について説明する。色コリログラムのみ用いて特徴量を算出する場合は、ステップS102ないしステップS104およびステップS108は割愛されても良い。
図4において、ステップS102ないしステップS104の処理は、各画像データの色ヒストグラムを算出する処理である。ステップS105ないしステップS107の処理は、各画像データの色コリログラムを算出する処理である。ステップS108およびステップS109は、ステップS104およびステップS107において取得された各画像データの色ヒストグラムおよび色コリログラムに基づいて、各画像データ間の色コリログラムおよび色ヒストグラムの距離を算出する。
【0053】
まず、特徴量算出部11は、ステップS101ないしステップS107において、画像データベース51に格納された各画像データについて、色ヒストグラムおよび色コリログラムを算出する。
【0054】
具体的には、ステップS101において、特徴量算出部11は、画像データの各画素の輝度値を量子化する。ここでは、輝度値を基準に以下の処理を実行する場合について説明するが、RGBの各画素の値に基づいて処理されても良い。次にステップS102において、特徴量算出部11は、ヒストグラムのビンに対して、画像データの各画素に対応する画素値の値に投票する。ステップS103において、特徴量算出部11は、ステップS102で取得したヒストグラムを正規化し、総和を1とする。ステップS104において、特徴量算出部11は、ステップS103により算出された値を、この画像データの色ヒストグラムとして取得する。
【0055】
次にステップS105において、特徴量算出部11は、コリログラムのビンに対して、画像データの各画素に対応する画素値の値に投票する。ステップS106において、特徴量算出部11は、ステップS105で取得したコリログラムを正規化し、総和を1とする。ステップS107において、特徴量算出部11は、ステップS106により算出された値を、この画像データの色コリログラムとして取得する。
【0056】
次に、ステップS108において、特徴量算出部11は、各画像データの色ヒストグラム間の2次形式距離を算出し、画像データベース51に記憶する。更に、ステップS109において、特徴量算出部11各画像データの色コリログラム間の2次形式距離を算出し、画像データベース51に記憶する。例えば、画像データベース51に、50の画像データが格納されている場合、色ヒストグラム間の2次元形式距離および色コリログラム間の2次元形式距離は、それぞれ50×49/2個である。
【0057】
以下で、色ヒストグラム、及び色コリログラムの定義について説明する。
1.色ヒストグラム
色ヒストグラムは画像中に特定の色が出現する確率の分布により定義される。画像Iにおける各画素の色はc1, ・ ・ ・ , cm のm階調に量子化されているものとし、各画素p = (x, y) ∈ Iに対してI(p) をその画素の色とする。また、Ic = {p|I(p) = c} とする。このとき、画像Iの色ci に対する色ヒストグラムhci(I)は、次式により定義される。
【数1】
JP0005229744B2_000002t.gif
このとき、Pr[p ∈ Ici ] は、画像I において色がci となる画素pの確率を示す。このようにして定義される色ヒストグラムを特徴として用いることで、画像中の色に着目した画像分類が可能となる。
【0058】
2.色コリログラム
色ヒストグラムが画像中に特定の色が出現する確率の分布として定義されるのに対し、色コリログラムは画像中の一定距離離れた画素間における特定の色の共起確率の分布として定義される。このことから、図5Aおよび図5Bに示すように、色ヒストグラムと色コリログラムは異なる特徴を表す。具体的には、図5Aに示すように、大きい円が一つだけある画像についても、図5Bに示すように小さい円が多数含まれている画像についても、同じ色ヒストグラムを有する。しかし、色コリログラムで表すことにより、図5Aおよび図5Bの画像それぞれの特徴を示すことができる。
【0059】
以降、色コリログラムの定義について説明する。
画像I における各画素の色はc1, ・ ・ ・ , cm のm階調に量子化されているものとし、各画素p = (x, y) ∈ I に対してI(p) をその画素の色とする。また、Ic = {p|I(p) = c} とする。このとき、画像I の色ci,cj,距離k に対する色コリログラム
【数2】
JP0005229744B2_000003t.gif
は、次式により定義される。
【数3】
JP0005229744B2_000004t.gif
ここで、式2における2画素間の距離|p1 - p2| は、次式により定義される。
【数4】
JP0005229744B2_000005t.gif
ただし、最良の実施の形態に係る画像分類装置1では、画素の周辺の局所領域における色の分布を考慮するため、式2を次式に置き換える。
【数5】
JP0005229744B2_000006t.gif

【0060】
このように、色コリログラムを特徴として用いることで、本発明の最良の実施の形態において画像分類装置1は、画像中の色の空間的な分布の差異を考慮することができる。また、画像分類装置1は、高精度に画像を自動的に分類することができる。
【0061】
本発明の最良の実施の形態において画像分類装置1は、以上の2つの特徴を分類対象画像より抽出し、各画像データに対するそれらの距離を定義する。さらに画像分類装置1は、定義された距離に基づき画像間の類似度を算出し、得られる類似度に基づいて画像を分類する。本発明の最良の実施の形態に係る画像分類装置1は、画像全体、エッジ、被写体と着目する領域を限定しながら特徴を算出し、多段階に処理することで、より高精度に画像を自動的に分類することができる。
【0062】
次に、特徴間の距離に基づく画像間の類似度の定義を説明する。
本発明の最良の実施の形態に係る画像分類装置1は、複数の画像データにおける、画像から算出した色ヒストグラム間、および色コリログラム間の距離を用いて、画像間の類似度を評価する。色ヒストグラム間の距離尺度としては様々なものが考えられるが、その中でも人間の知覚に近い距離尺度であることが報告されている2次形式距離を用いることで、適切な分類結果を得ることが可能となる。ただし、2次形式距離は色ヒストグラム間の距離として定義されており、そのままでは色コリログラム間の距離尺度としては用いることができない。そこで、本発明の最良の実施の形態に係る画像分類装置1は、色ヒストグラム間の2次形式距離の概念を拡張することで、色コリログラム間の距離を定義する。
【0063】
2つの色ヒストグラム間の2次形式距離は、各ビンの値を要素とするベクトルhi,hj を用いて次式により定義される。
【数6】
JP0005229744B2_000007t.gif
式5におけるS = [sxy] は色類似度行列と呼ばれ、x 番目とy 番目のビンに対応する色の類似度として
【数7】
JP0005229744B2_000008t.gif
で定義される。ただし、α は、正定数である。dxy は、x 番目のビンとy 番目のビンに対応する色のL*a*b表色系における色差である。本発明の最良の実施の形態に係る画像分類装置1は、色ヒストグラム間の距離として式5の2次形式距離を用いる。
【0064】
本発明の最良の実施の形態に係る画像分類装置1は、さらにこの色ヒストグラム間の2次形式距離の概念を拡張することで、色コリログラム間の距離尺度を定義する。色ヒストグラムの各ビンが単一の色に対応するのに対し、色コリログラムの各ビンは2つの色の組み合わせに対応する。従って式5における色類似度行列S をそのまま用いることはできない。そこで、本発明の最良の実施の形態に係る画像分類装置1は、 S = [sxy] を次式に示すように変更する。
【数8】
JP0005229744B2_000009t.gif
【数9】
JP0005229744B2_000010t.gif
ただし、色コリログラムのx 番目のビンとy 番目のビンは、それぞれ色x1, x2,および色y1, y2 の組み合わせに対応する。本発明の最良の実施の形態においては、色コリログラム間の距離は、各ビンの値を要素とするベクトルci,cj
【数10】
JP0005229744B2_000011t.gif
を用いて次式により定義される。
【数11】
JP0005229744B2_000012t.gif

【0065】
本発明の最良の実施の形態は、2次形式距離を算出する際、以下のように色ヒストグラムを変換することで計算量を削減する。まず、S の固有値分解がS = UΛUT で表される。ただし、Λ はS の固有値を降順に並べた対角行列、U は対応する固有ベクトルを並べた行列である。ここで、Λ の上位l 個の固有値を並べた対角行列Λl と対応する固有ベクトルを並べた行列Ul により、n 次元の色ヒストグラムhi,hj は、次式を用いてl 次元のベクトル
【数12】
JP0005229744B2_000013t.gif
に変換される。
【数13】
JP0005229744B2_000014t.gif
式10より算出される
【数14】
JP0005229744B2_000015t.gif
を用い、hi,hj のl 次元空間上での距離は、次式により定義される。
【数15】
JP0005229744B2_000016t.gif
このとき、式5におけるDh(hi,hj) は、l 次元空間上の距離
【数16】
JP0005229744B2_000017t.gif
により近似することが可能である。本発明の最良の実施の形態では、この低次元での2次形式距離を用いて類似画像を分類する。色コリログラム間の2次形式距離の算出の際についても、色ヒストグラム間の2次形式距離算出と同様に、式9を次式で近似することにより、計算量が削減される。
【数17】
JP0005229744B2_000018t.gif
ただし、
【数18】
JP0005229744B2_000019t.gif
である。
【0066】
本発明の最良の実施の形態においては、画像分類装置1は、
【数19】
JP0005229744B2_000020t.gif
を特徴ベクトルとし、距離
【数20】
JP0005229744B2_000021t.gif
を用いて画像間の類似度を評価し、画像を分類する。
【0067】
(クラスタ処理部)
第1のクラスタリング部12、第2のクラスタリング部13およびクラスタ統合部14について説明する。
本発明の最良の実施の形態は、画像中の色とその分布に着目し、多段階に処理することで、高精度な画像の自動分類を実現する。まずは画像中の色の分布に着目し、色コリログラム間の2次形式距離に基づくK-means 法により、画像が分類される。具体的には、画像分類装置1は、図6に示すように、画像データベース51に記憶された画像データ群を、K-means 法により分類し、クラスタC11、C12、C13およびC14を生成する。
【0068】
しかしながら、K-means 法により得られる分類は、1枚の画像の特徴を1つの色コリログラムのみを用いて表現しているため、画像中のより詳細な特徴については考慮されていない。そのため、この時点では十分な分類精度が得られていない可能性がある。そこで、本発明の最良の実施の形態は、画像中のより詳細な特徴を用いて分類結果の高精度化を図ることで、より高精度な画像の自動分類を実現する。
【0069】
本発明の最良の実施の形態は、より詳細な特徴として、画像中の重要な特徴であるエッジに着目する。画像分類装置1は、画像よりエッジ画素の検出を行い、エッジ画素とその周囲の画素のみから算出された色コリログラムを用いて、既に得られている各クラスタを分割する。ここで、エッジ画素とは、Sobelフィルタで取得したエッジであって、被写体のエッジとは限らない。例えば画像分類装置1は、K-means 法により分割されたクラスタのうち、クラスタ内誤差が所定の閾値Thより大きいクラスタを更に分割する。図6に示す例では、クラスタ内誤差が所定の閾値Thより大きいクラスタは、クラスタC11およびC13であるので、画像分類装置1は、クラスタC11を、それぞれクラスタC21およびC22に分割する。さらに画像分類装置1は、クラスタC13を、クラスタC23およびC24に分割する。この結果得られたクラスタC24のクラスタ内誤差が所定の閾値Thより大きいので、画像分類装置1は、さらにクラスタ24を分割し、クラスタC31およびクラスタC32に分割する。このように画像分類装置1は、各クラスタのクラスタ内誤差が所定の閾値Thより小さくなるように、クラスタを分割する。これにより本発明の最良の実施の形態において、画像中のさらに詳細な色分布を考慮し、分類結果の高精度化が可能となる。
【0070】
ただし、このときクラスタを分割することにより過分割が発生してしまう危険性がある。そこで、画像分類装置1は、過分割の影響を抑制するため、被写体から得られた色ヒストグラムと色コリログラムを用いたクラスタの再統合処理を加える。これにより、画像分類装置1は、高精度に類似画像を分類することができる。具体的には、画像分類装置1は、分割結果のクラスタC21、C22、C12、C23、C31、C32およびC14の7つのクラスタについて、同一の被写体を含むと考えられるクラスタを6つ以下のクラスタに統合する。
以降、各処理について詳細に述べる。
【0071】
(第1のクラスタリング部)
本発明の最良の実施の形態に係る第1のクラスタリング部12は、N枚の分類対象画像fi(i = 1, ・ ・ ・ ,N) を複数の集合に分類するため、 K-means 法を用いてクラスタリングを行う。ここで、K-means法によるクラスタリングは、非階層型クラスタリング手法の一種である。
【0072】
図7を参照して、本発明の最良の実施の形態に係る第1のクラスタリング部12による第1のクラスタリング処理を説明する。
【0073】
ステップS201において、第1のクラスタリング部12は、最初にクラスタ数Kを1に設定する。次に、ステップS202において、第1のクラスタリング部12は、クラスタ数をKにするクラスタリングを行う。このとき、ステップS203において、第1のクラスタリング部12は、全てのクラスタに対するクラスタリング誤差E(k)を算出する。
【0074】
ステップS204において、第1のクラスタリング部12は、クラスタ数がK=1の場合、ステップS205においてKをインクリメントする。更に、ステップS202に戻り、第1のクラスタリング部12は、クラスタ数をKにするクラスタリングが行われる。
【0075】
一方ステップS204において、クラスタ数がK=1でない場合、ステップS206において、第1のクラスタリング部12は、現在のクラスタ数におけるクラスタリング誤差E(k)と、現在のクラスタ数より一つ少ないクラスタ数におけるクラスタリング誤差E(k-1)との差が、所定の閾値以上である場合、ステップS205においてKをインクリメントする。更に、ステップS202に戻り、第1のクラスタリング部12は、クラスタ数をKにするクラスタリングを行う。
【0076】
一方、ステップS206において、所定の閾値以上でない場合、現在のクラスタ数の状態で、クラスタリング誤差が収束したとして、第1のクラスタリング部12は、第1のクラスタリング処理を終了する。
【0077】
ここで、第1のクラスタリング部12の処理を詳述する。
本発明の最良の実施の形態に係る第1のクラスタリング部12は、K-means 法に用いる特徴ベクトルを生成する。第1のクラスタリング部12は、各fi について、R、G、Bの輝度値をそれぞれm 階調に量子化し、距離k1 に対する色コリログラムを算出する。ここで、k1は予め与えられる値である。得られた色コリログラムに対し、式13を適用することでl 次元ベクトルc’i を算出し、特徴ベクトルとする。以上の処理により得られた特徴ベクトルに対し、K-means 法を適用する。ただし、K-means 法はクラスタリング結果が初期クラスタ、およびクラスタ数により変化する。そこで、本発明の最良の実施の形態においては、クラスタリング結果を評価するため、次式により表されるクラスタリング誤差Ek を用いる。
【数21】
JP0005229744B2_000022t.gif
ただし、Ck、及びvk (k = 1, ・ ・ ・ ,K,K はクラスタ数) はk 番目のクラスタとその中心ベクトルを表す。本発明の最良の実施の形態においては、クラスタ数K をK = 1, 2, ・ ・ ・ と変化させる。第1のクラスタリング部12は、、各クラスタについて初期値をランダムに変更しながらK-means 法をM 回適用する。第1のクラスタリング部12は、EK の値が最小となる結果をクラスタ数K におけるクラスタリング結果とする。
【0078】
クラスタリングの終了判定には、スクリープロットの概念を用いる。スクリープロットは、主成分分析において主成分数を決定するために用いられ、第一主成分から順に固有値をプロットし、2点間の差分が小さくなる主成分数を採用するものである。本発明の最良の実施の形態においては、主成分数をクラスタ数、固有値をEk に対応づけ、|Ek-Ek-1| < THcl を満たす場合に現在の状態を、最終的なクラスタリング結果とする。
【0079】
(第2のクラスタリング部)
K-means 法を適用することにより得られた分類結果は、画像全体の色の分布に着目したものであるため、画像の詳細な特徴については考慮されていない。よって、異なる被写体を撮像した画像が、同一のクラスタに含まれる可能性がある。そこで、画像分類装置1は、より詳細な特徴を用いて各クラスタを分割することで、分類結果の高精度化を図る。具体的には、画像分類装置1は、画像の詳細な特徴としてエッジに着目し、エッジ画素と、エッジ画素を中心とする周辺の画素との色の関係を考慮することで、より高精度な分類結果を得る。ここで、エッジ画素とは、Sobelフィルタで取得したエッジであって、被写体のエッジとは限らない。また、周辺の画素とは、エッジ画素の座標を(x,y)としたとき、エッジ画素からの距離k2は、
【数22】
JP0005229744B2_000023t.gif
を満たす座標(a,b)の画素である。ここでk2は、予め与えられるパラメータである。
【0080】
図8を参照して、本発明の最良の実施の形態に係る第2のクラスタリング部13による第2のクラスタリング処理を説明する。
【0081】
まず、ステップS301において、第2のクラスタリング部13は、画像データベース51に記憶された全ての画像データに対し、Sobelフィルタを適用し、各画像データにおけるエッジ画像を取得する。ステップS302において、第2のクラスタリング部13は、各画像データについて、ステップS301で取得したエッジ画像の色コリログラムを生成する。
【0082】
次に、ステップS303において、第2のクラスタリング部13は、第1のクラスタリング部12によって生成された各クラスタにおいて、クラスタ内誤差Eを算出する。このクラスタ内誤差Eは、クラスタに属する画像データについて、ステップS302で生成されたエッジ画像の色コリログラム間の2次形式距離に基づく。この各画像データのエッジ部分における色コリログラム間の2次元形式距離は、画像データベース51に記憶されることが好ましい。
【0083】
ステップS304において、第2のクラスタリング部13は、全てのクラスタにおいて、クラスタ内誤差Eが、所定の閾値未満であるか否かを判定する。閾値未満でない場合、ステップS305において、第2のクラスタリング部13は、クラスタ内誤差Eが閾値未満でないクラスタを抽出する。更に、第2のクラスタリング部13は、その抽出したクラスタを2つに分割する。この分割においては、エッジ画素の色コリログラム間の2次形式距離に基づいて、K=2のK-means法が用いられる。更に、ステップS303に戻り、第2のクラスタリング部13は、ステップS305において分割された後の各クラスタにおいて、クラスタ内誤差Eを算出する。第2のクラスタリング部13は、ステップS305において、全てのクラスタのクラスタ内誤差Eが閾値未満であるかを判断する。
【0084】
全てのクラスタのクラスタ内誤差Eが、閾値未満になったと判断されるまで、ステップS303ないしステップS305の処理は繰り返される。全てのクラスタのクラスタ内誤差Eが、閾値未満になると、第2のクラスタリング処理は終了する。
【0085】
ここで、第2のクラスタリング部13の処理を詳述する。
まず、Sobel フィルタを用いて各画像におけるエッジ画素を検出する。このとき、画素の3×3近傍の画素値に図9に示す記号を与えると、Sobel フィルタによるエッジ強度es は次式で定義される。
【数23】
JP0005229744B2_000024t.gif
しかしながら、本手法はカラー画像を分類対象としているため、式16および式17を次式に変更する。
【数24】
JP0005229744B2_000025t.gif
ここで、例えば||a - c||はa とc のL*a*b 色空間における色差を表す。
【0086】
本発明の最良の実施の形態においては、このように拡張したSobel フィルタを用いてエッジ画素を検出する。これにより取得されるエッジに着目してK-means 法により得られた各クラスタを分割することで、分類結果の高精度化を図る。エッジに着目するため、前述の拡張されたSobel フィルタにより得られるエッジ画素から距離k2(k2 < k1) に対する色コリログラムを作成する。その後、式13を用いて算出される特徴ベクトル
【数25】
JP0005229744B2_000026t.gif
を用いることで、エッジに着目した処理を可能とする。このようにして得られた特徴ベクトルを用い、各クラスタをK-means 法によりさらに2つのクラスタに分割する。
【0087】
以上の処理を、全てのクラスタについて、次式により得られるクラスタ内の誤差E(Ck) がE(Ck) < THd を満たすまで行う。
【数26】
JP0005229744B2_000027t.gif
ただし、nk は、クラスタCk に属する分類対象画像の数を表す。以上の処理により、各クラスタを画像の重要な特徴であるエッジに着目して分割することが可能となる。
【0088】
(クラスタ統合部)
以上の処理により、画像分類装置1は、K-means 法を用いて得た各クラスタを、画像の重要な特徴であるエッジに着目して分割することが可能となる。ただし、これに伴って過分割が行われ、同一の被写体を撮像した画像が複数のクラスタに分割される場合がある。そこで、本発明の最良の実施の形態は、分割された各クラスタを、被写体に着目して統合することで、最終的な分類結果を得る。
【0089】
図10を参照して、本発明の最良の実施の形態に係るクラスタ統合部14によるクラスタ統合処理を説明する。
まずクラスタ統合部14は、画像データベース51に記憶された全ての画像データについて、ステップS401ないしステップS404の処理を実行する。ステップS401ないしステップS404の処理では、クラスタ統合部14は、画像データの構図を決定する。
【0090】
画像データベース51に記憶された画像データの1つについて、ステップS401において、クラスタ統合部14は、任意の境界線を設定して、画像を2つの領域に分割する。次にステップS402において、クラスタ統合部14は、ステップS401で分割された2つの領域のそれぞれについて、各領域に位置する画素についての色ヒストグラムを算出する。
【0091】
次にステップS403において、クラスタ統合部14は、2つの領域における色ヒストグラム間の2次元形式距離に基づいて、ステップS401で設けた境界線が、画像の構図を示すかを判定する。
【0092】
また、ステップS401ないしステップS404の処理は、図12Aないし図12Dに示すように、境界線の方向を変更して繰り返される。これによりクラスタ統合部14は、画像データを、境界線内の画素と、境界線外の画素とに分割することができる。
【0093】
全ての画像データについて、ステップS401ないしステップS404の処理が終了すると、クラスタ統合部14は、ステップS405を処理する。ステップS405において、クラスタ統合部14は、境界線内の画素と境界線外の画素との特性に基づいて、被写体を構成する画素を抽出する。
【0094】
更に、クラスタ統合部14は、ステップS405で抽出した被写体の画素に基づいて、類似する被写体の画素を有する画像が含まれるクラスタを、統合する。具体的にはクラスタ統合部14は、複数のクラスタのうち、被写体が類似するクラスタを、1つのクラスタに統合する。この結果得られた各画像データが所属するクラスタの情報は、画像データベース51に記憶されることが好ましい。
【0095】
ここで、クラスタ統合部14の処理を詳述する。
最良の実施の形態において、被写体を構成する画素を推定するにあたり、分類対象画像をそのおおまかな色の分布から図11Aおよび図11Bに示す2つの構図に大別する。
【0096】
構図1:画像中に被写体が存在する構図(図11A参照)。例えば、図11Cに示す、中央付近に被写体が撮像されている画像。
構図2:構図1以外の構図(図11B参照)。例えば、図11Dに示す、テクスチャ画像等、画像全体を被写体が占める画像。
【0097】
以下で、構図を推定するための特徴量を、色ヒストグラムを用いて定義する。本発明の最良の実施の形態においては、図12Aないし図12Dに示す境界線Li (i = 1, ・ ・ ・ , 4) を平行移動することにより、クラスタ統合部14は、画素数の比がj : 1-j である2つの領域Ai,j,1,Ai,j,2 に、画像を分割する。このとき、j を1/d から(d-1)/dまで1/d ずつ変化させたときの、2つの領域における色ヒストグラム間の2次形式距離の変化は、画像の構図により固有の傾向を示す。そこで、本発明の最良の実施の形態においては、構図の決定に用いる特徴量は、hi,j,1,hi,j,2 間の2次形式距離を用いて次式により算出される
【数27】
JP0005229744B2_000028t.gif
を定義する。
【数28】
JP0005229744B2_000029t.gif
各構図について、2つの領域における色ヒストグラム間の2 次形式距離の変化が示す傾向、
及び画像の構図(構図1、あるいは構図2)の決定法が、以下に示される。
【0098】
構図1:構図1の画像を2つの領域に分割すると、それぞれの領域の色ヒストグラム間の2次形式距離は、境界線の位置により大きく変化する。そこで、
【数29】
JP0005229744B2_000030t.gif
を最大とするi を求め、
【数30】
JP0005229744B2_000031t.gif
とする。このとき、
【数31】
JP0005229744B2_000032t.gif
である場合にその画像の構図を構図1とする。
構図2:構図1以外の画像を構図2とする。
【0099】
本発明の最良の実施の形態は、構図1の画像から被写体を構成する画素を推定する。一般に、背景は画像の端に接するため、構図1を決定する際に得られた境界線
【数32】
JP0005229744B2_000033t.gif
を用い、画像の端に存在する領域である
【数33】
JP0005229744B2_000034t.gif
内に含まれる画素のL*a*b 表色系における輝度値のメディアン値を求め、その画像の背景を構成する画素の代表色とする。このとき得られた、背景を構成する画素の代表色との色差が、閾値THobject よりも大きな画素を、画像分類装置1は、被写体を構成している画素であると推定する。一方、構図2の画像については画像全体を1つの被写体とみなし、画像分類装置1は、全画素を被写体を構成する画素であると推定する。
【0100】
これにより得られる被写体を構成する画素に着目してクラスタを統合することで、クラスタの過分割を抑制し、クラスタ統合部14は、最終的な分類結果を得る。被写体に着目するため、前述のように被写体を構成すると推定された画素から距離k1 に対する色コリログラムを算出する。ところで、色コリログラムは、非常に類似した画像間で高い類似度を示すが、被写体の撮像方向等の影響を受けやすいことが知られている。そこで、最良の実施の形態は、被写体を構成する画素から色ヒストグラムを得、さらに式10より特徴ベクトルhi を算出し、色コリログラムによる特徴ベクトルと共に用いてクラスタを統合する。クラスタの統合には、階層的クラスタリングの一手法であるウォード法が用いられる。
【0101】
ウォード法は、クラスタCk とCl の非類似度S(Ck,Cl) を
【数34】
JP0005229744B2_000035t.gif
で定義し、最も非類似度の低い2つのクラスタを逐次統合する手法である。本発明の最良の実施の形態は、色ヒストグラムと色コリログラムを同時に考慮するため、式23を次式のように変更する。
【数35】
JP0005229744B2_000036t.gif
ただし、
【数36】
JP0005229744B2_000037t.gif
はそれぞれクラスタCk、及びクラスタCl の色ヒストグラムにおけるクラスタ中心と色コリログラムにおけるクラスタ中心を縦に並べたベクトルであり、A = [aij ] は
【数37】
JP0005229744B2_000038t.gif
を満たす行列である。
本発明の最良の実施の形態においては、S(Ck,Cl) の最小値が、閾値TH よりも高い値を示すまで統合処理を繰り返し行う。以上の処理を行うことで、被写体に着目した高精度な類似画像分類が実現可能となる。
【0102】
クラスタ統合部14は、以上の処理により得られる各特徴量と、クラスタリング結果を画像ごとに保存しておき、可視化の際に使用する。ただし、保存しておく各特徴量は、可視化の際に特徴量間の距離を算出することを考慮し、式10および式13により変換を行った値とする。
【0103】
(表示部)
分類部10の処理によって得られた画像の特徴量、及びその分類結果に基づき、本発明の最良の実施の形態に係る画像分類装置1は、画像の分類結果を可視化する。この画像分類結果の可視化は、画像を多次元空間上に配置することで実現可能となる。
【0104】
図13を参照して、本発明の最良の実施の形態に係る表示部20による表示処理が説明される。
まず、ステップS501において、表示部20は、画像データベース51に記憶された各画像データについて、画像全体の色コリログラム、エッジ領域における色コリログラムおよび被写体領域における色ヒストグラムと色コリログラムを算出する。この算出処理は、上述した分類部10における処理結果値が参照されることが好ましい。各特徴値が算出されると、表示部20は、ステップS502において、画像データ間の距離を定義する。
【0105】
次にステップS503において、表示部20は、画像データのサムネイルを、表示装置105の画面上に配置する。このとき表示部20は、ランダムな位置に画像データのサムネイルを表示する。次に、ステップS504において、表示部20は、ステップS502で定義された画像データ間の距離や、分類部10によって決定されたクラスタに基づいて、画像データのサムネイルの座標を更新する。
【0106】
ステップS505において、表示部20は、座標更新の収束を判定をする。収束していない場合、ステップS504に戻り、更に画像データのサムネイルの座標を更新する。
一方、ステップS505において、表示部20は、表示装置105の座標更新が収束したと判定する場合、表示処理を終了する。
【0107】
表示部20における、ステップS502の画像データ間の距離の定義を説明する。
まず、表示部20は、各画像データから特徴ベクトルを作成する。特徴ベクトルの要素としては、表示部20は、上述した画像全体の色コリログラム、エッジ領域における色コリログラム、被写体領域における色ヒストグラムと色コリログラムの特徴量を用いる。表示部20は、このようにして求められた画像Ii の特徴ベクトルvi から、式26に基づき画像間の距離DI (i, j) を算出する。
【数38】
JP0005229744B2_000039t.gif
ただし、クラスタCi,Cj はIi ∈ Ci, Ij ∈ Cj を満たすクラスタである。wsame,wother は画像が所属するクラスタに応じた重みである。
【0108】
このとき本発明の最良の実施の形態において表示部20は、重みwsame,wother に対して、wsame < wother となる値を割り当てることで同じクラスタに属する画像間の距離を短くする。これにより、分類結果において同じクラスタに所属するとされた画像同士は、近距離に配置される。本発明の最良の実施の形態において表示部20は、この画像間の距離に基づき画像のサムネイルの座標を更新するとともに、その収束過程をアニメーションで表示することにより、画像分類結果の可視化を実現する。
【0109】
画像データ間の距離に基づいて画像の座標を移動させていき、収束するまでの過程を可視化することで、ユーザが、分類結果を直感的に把握することが可能となる。本発明の最良の実施の形態において表示部20は、まず画像を空間上にランダムに配置し、それらが互いに類似した画像毎に集まっていく様子をアニメーションにより可視化する。本発明の最良の実施の形態は、多次元空間として、人間が知覚可能な最大次元である3次元空間を選択する。具体的には、表示部20は、分類対象画像より算出された特徴の次元を3次元まで削減することで、画像の3次元空間での座標を決定し、3次元空間上に配置する。次に、これを2次元のスクリーン上で表現するため、表示部20は、図14に示す透視変換を行い、最終的な出力画像を得る。
【0110】
本発明の最良の実施の形態に係る表示部20は、以下のような手順により構成される。
手順1:初期配置
図15に示すように、表示部20は、各画像を3次元空間上にランダムに配置し、透視変換することで2次元のスクリーン上に表示する。この際、表示部20は、各画像を配置する座標には多面体を描画し、その各面に対象画像を描画する。これにより、表示部20が、画像の3次元上の位置をユーザに分かり易く提示することが可能となる。
【0111】
手順2:画像の移動
表示部20は、画像間の距離に基づき各画像の移動量を計算し、各画像の3次元空間上の座標を変更する。このとき、画像Ii の3 次元座標をpi とすると、その移動量
【数39】
JP0005229744B2_000040t.gif
は、以下の式に基づき算出される。
【数40】
JP0005229744B2_000041t.gif
ただし
【数41】
JP0005229744B2_000042t.gif
は、画像Ii の座標pi をmi 移動させたときの、3次元空間上における画像Ii, Ij 間の距離を示す。したがって、画像の移動量
【数42】
JP0005229744B2_000043t.gif
は、予め定義した画像間の距離DI (i, j)と実際の3次元空間上の距離
【数43】
JP0005229744B2_000044t.gif
の差が最小となるものとして求められる。このようにして求められた画像の移動量
【数44】
JP0005229744B2_000045t.gif
に基づき、表示部20は、次式のように各画像の座標を更新する。
【数45】
JP0005229744B2_000046t.gif

【0112】
手順3:繰り返し
表示部20は、手順2を、全ての画像の移動量
【数46】
JP0005229744B2_000047t.gif
が0に収束するまで繰り返す。0に収束した時点で、表示装置105には、図16に示す画面が表示される。
【0113】
図16においては、もみじを示す絵や、建物を示す絵など、類似した画像のサムネイルが、近く配置されている。一方、類似していない画像のサムネイルが、遠く配置されている。
【0114】
このような処理により、各画像データのサムネイル間の距離は、予め定義した距離DI (i, j) に近づいていく。類似した画像データのサムネイルが、近距離に配置されることとなる。
【0115】
ここで、上述した手順2および手順3の処理が詳述される。各画像データのサムネイルの座標は、以下に示す評価関数を最小とする方向に移動する。
【数47】
JP0005229744B2_000048t.gif
ここで、簡単のため各画像(画像データのサムネイル)の座標を1次元に限定した例が、図17Aに示される。図17Aに示すように、各画像間の実際の距離が“7”、“2”であり、予め定義された画像間の距離が“5”,“4”であることが確認される。これらの値を用いて、表示部20は、画像I2の座標を移動させた時の評価関数を算出し、値が最小となる方向に画像を移動させる。
【0116】
(1)1ステップ目
画像が左に1移動された場合
f(-1)=|5-6|+|4-3|=2
画像が移動されない場合
f(0)=|5-7|+|4-2|=4
画像が右に1移動された場合
f(1)=|5-8|+|4-1|=6
以上より、画像を左に移動させたときに評価関数が、最小となることが分かる。したがって、この場合画像I2は、左へ移動する。このときの各画像の位置が、図17Bに示される。表示部20は、この処理を繰り返すことで、各画像を類似した画像の近傍に配置することができる。
【0117】
(2)2ステップ目
次のステップでは、評価関数は以下のようになる。
画像が左に1移動された場合
f(-1)=|5-5|+|4-4|=0
画像が移動されない場合
f(0)=|5-6|+|4-3|=2
画像が右に1移動された場合
f(1)=|5-7|+|4-2|=4
以上より、画像I2は、左へ移動する。このときの各画像の位置が、図17Cに示される。
【0118】
(3)3ステップ目
次のステップにおける評価関数は、以下のようになる。
画像が左に1移動された場合
f(-1)=|5-4|+|4-5|=2
画像が移動されない場合
f(0)=|5-5|+|4-4|=0
画像が右に1移動された場合
f(1)=|5-6|+|4-3|=2
このとき、評価関数は画像を移動させないとき最小となる。この時点で評価関数は収束しているので、表示部20は、画像(画像データのサムネイル)の移動を終了する。以上の処理を全ての画像に関して、表示部20が評価関数が収束するまで行うことで、画像分類結果の可視化が実現する。
【0119】
次に、図15および図16を説明する。
本発明の最良の実施の形態に係る表示部20は、まず、図15に示す初期画面P201を、表示装置105に表示する。初期画面P201は、分類過程表示部201を備えている。分類過程表示部201には、上述した手順1において、画像データのサムネイルをランダムに配置した状態が表示される。この初期画面P201は、各画像データのサムネイルを3次元空間にランダムに配置した後に透視変換を施すことにより得られる画面である。
【0120】
さらに、手順2および手順3において、画像データのサムネイルが移動する様子が、表示画面105に表示される。この様に、自動分類の過程をアニメーションを用いて表示することで、ユーザがデータベースに含まれる画像を直観的に把握することができる。
手順2および手順3が繰り返された結果、移動量が収束すると、図16に示す結果画面P202が、表示装置105に表示される。結果画面P202は、分類結果表示部202を備える。分類結果表示部202において、類似した画像が近くに表示される。一方、類似しない画像が遠くに表示される。
【0121】
図15および図16に示す画面には、画像データのサムネイルが移動する過程を可視化するための制御ボタンがいくつか設けられている。具体的には、下記のボタンが設けられる。
【0122】
(1)早送りボタン
このボタンがクリックされると、アニメーションの速度が速くなる。これにより、ユーザが最終的な収束結果を見たい場合には、表示部20は、それを迅速に提示することができる。
(2)初期状態復元ボタン
このボタンがクリックされると、表示部20は、分類過程を初期状態に戻すことができる。
(3)マップ表示・非表示ボタン
分類画面右上部に現在位置と視点の方向を示すマップが用意されている。これにより、ユーザは画像を配置した3次元空間上を自由に移動することができる。このボタンがクリックされることで、マップの表示・非表示を切替えることが可能である。
(4)視点変更ボタン
表示部20は、画像を配置した3次元空間上での移動、および視点の変更を、マウスのドラッグにより行うことができる。その他、ユーザが4つの視点変更ボタンをクリックすることによっても、表示部20は、予め定めた4つの位置・視点に変更することができる。
【0123】
図15に示す初期画面P201において、ユーザは、分類開始・一時停止ボタンをクリックすることで、表示部20は、分類過程をアニメーションにより再現する。その後、最終的に図16に示す結果画面P202のように分類対象画像群はそれぞれ類似した画像毎に集まり、表示部20は、分類結果を表示することができる。ユーザは、分類過程表示部201および分類結果表示部202において、マウスのドラッグにより自由に3次元空間上での移動、および視点の変更が可能である。ユーザは、自由な視点で分類過程・結果を閲覧することができる。これにより、ユーザは、データベース中の画像を直観的に把握することができる。また、クエリ画像を保持していない場合、あるいは明確な検索意図が存在しない場合においても、ユーザは、所望する画像を検索することが可能となる。
【0124】
また、表示部20は、特定の画像と同じクラスタに所属する画像群を表示した結果を示しても良い。このとき、選択した画像データとともに、選択した画像データと同じクラスタに所属する画像データも表示することが好ましい。ユーザは選択した画像データと同じクラスタに所属する画像データから画像を選択できる。ユーザがこのうちの1枚をクリックすることで、ユーザは、新たに画像を選択することができる。
【0125】
このように、本発明の最良の実施の形態に係る画像分類装置1は、画像の自動分類における分類過程および分類結果をユーザに提示することで、データベース中に含まれる画像を直観的に把握することができる。これによりユーザがクエリ画像を保持していない場合、あるいは明確な検索意図が存在しない場合においても、画像分類装置1は、ユーザの所望する画像を提供することが可能となる。
【0126】
(効果)
本発明の最良の実施の形態に係る画像分類装置1は、分類結果を表示する際に3次元空間上において可視化する。これにより画像分類装置1は、分類結果を効率的に閲覧させることができる。具体的には、画像分類装置1は、画像間の非類似度に基づいて3次元空間上における距離を決定し、画像のサムネイルを表示装置105に配置する。これにより、データベース中の画像のサムネイルが類似画像ごとに集まった状態が、表示装置105に表示される。
【0127】
また、画像分類装置1は、非類似度に基づいて画像間の距離を決定している。従って、ある画像から距離が近ければ近いほど、類似した画像が、表示装置105上に配置される。一方、遠ければ遠いほど、似ていない画像が、表示装置105上に配置される。これにより分類結果が表示される際、ある画像の周辺においてごく狭い範囲を見た場合には、類似している画像の中でも、特に類似している画像が近傍に配置される。同様に、あまり類似していない画像が遠くに配置されることとなる。また、より多くの画像を含む範囲で見た場合にも、類似している画像が近傍に配置され、似ていない画像が遠くに配置されることとなる。データベース中のすべての画像についてこのような配置が行われるため、ユーザが分類結果を閲覧する際に、画像分類装置1は、直感的に理解しやすく、効率的に閲覧させることができる。
【0128】
また、本発明の最良の実施の形態に係る画像分類装置1は、段階的にクラスタリング処理をする。これにより画像分類装置1は、画像全体の色の分布だけでなく、画像中のより詳細な特徴を考慮して画像を分類することができる。具体的には、画像全体の色分布に基づいてクラスタリングすることで、画像分類装置1は、画像を、全体的に類似しているものにクラスタリングすることができる。次に、エッジ領域における色分布に基づいてクラスタを分割することで、画像分類装置1は、より高精度にクラスタリングすることができる。さらに、画像中に存在する被写体を推定し、被写体の特徴に基づいてクラスタを再統合することで、画像分類装置1は、画像中のもっとも重要な情報である被写体を考慮して、画像を分類することができる。また、クラスタリングの各段階において、色ヒストグラム、色コリログラム間の距離を算出する際に、距離尺度として2次形式距離を用いることで、画像分類装置1は、より人間の視覚特性に近い分類を実現する。
このように、本発明の実施の形態に係る画像分類装置1は、第1のクラスタリング部12により、まず画像全体の特徴量に基づいて大まかに分類する。次に画像分類装置1は、第2のクラスタリング部13により、画像を特徴付けるエッジ部分に注目して、更に階層的に詳細に分類する。更に、第1のクラスタリング部12および第2のクラスタリング部13により過分割されたクラスタを、クラスタ統合部14は、被写体の特徴に基づいて、被写体ごとにクラスタを統合する。最後に被写体に基づいてクラスタを統合することにより、画像分類装置1は、ユーザの検索キーワードに合致しやすいクラスタを生成できる。
【0129】
(変形例)
本発明の変形例に係る画像分類装置1aは、最良の実施の形態に係る分類機能を利用することで、クエリ画像を与えた際に自動的に画像を検索することができる。
【0130】
本発明の変形例に係る画像分類装置1aは、まず入力されたクエリ画像から特徴量を抽出する。本発明の変形例に係る画像分類装置1のクエリ画像処理部30は、抽出される特徴量を用いてあらかじめ特徴量の算出と分類が完了しているデータベース中の画像と比較し、クエリ画像が所属するクラスタを決定する。このクエリ画像の特徴量とクラスタリング結果をデータベース中の画像と合わせて用いることで、表示部20は、次元空間上で検索結果を可視化する。
【0131】
本発明の変形例に係る画像分類装置1aは、入力されたクエリ画像から特徴量を抽出し、画像データベース51中の画像と比較することで、クエリ画像に類似した画像を検索する。本発明の変形例に係る画像分類装置1は、入力されたクエリ画像から、画像を分類する際に使用したすべての特徴量を抽出する。そして、事前に特徴量の抽出および分類を完了しているデータベース中の画像と比較を行い、クエリ画像が所属するクラスタを決定する。これにより得られるクエリ画像の特徴量および所属するクラスタを、画像データベース51中の画像のデータと合わせて用いることで、表示部20は、検索結果を3次元空間上で可視化する。
【0132】
図18を参照して、本発明の変形例に係る画像分類装置1aを説明する。
本発明の変形例に係る画像分類装置1aは、図1に示す本発明の最良の実施の形態に係る画像分類装置1と比べて、クエリ画像分類部30を備えている点が異なる。クエリ画像分類部30は、クエリ画像特徴量算出部31と、所属クラスタ決定部32を備えている。
【0133】
クエリ画像特徴量算出部31は、クエリ画像データ52の特徴ベクトルを算出する。ここで、特徴ベクトルは、画像全体における色コリログラムと、エッジ部分の色コリログラムと、被写体領域の色ヒストグラムと色コリログラムをパラメータとして有するベクトルである。クエリ画像特徴量算出部31は、クエリ画像データ52の画像全体における色コリログラムと、クエリ画像データ52のエッジ部分の色コリログラムと、52クエリ画像データの被写体領域の色ヒストグラムと色コリログラムを算出して、クエリ画像データ52の特徴ベクトルを算出する。
【0134】
所属クラスタ決定部32は、クエリ画像データ52の特徴ベクトルに基づいて、クラスタ統合部14により生成されたクラスタから、クエリ画像データ52の所属するクラスタを決定する。所属クラスタ決定部32は、クラスタ統合部14により生成された各クラスタに属する画像データの特徴ベクトルの平均を算出し、クエリ画像データ52の特徴ベクトルとの距離を最小とするクラスタをクエリ画像の所属クラスタとする。
【0135】
図19を参照して、本発明の変形例に係る画像分類装置1aにおける画像分類処理の概略を説明する。
まずステップS21において、画像分類装置1aは、クエリ画像データ52の特徴ベクトルを算出する。更にステップS22において画像データベース51から各画像データを読み出し、各画像データにおける特徴ベクトルを取得する。
【0136】
更にステップS23において画像分類装置1aは、クエリ画像データ52と、各画像データとの特徴ベクトルの距離を算出する。ステップS24において画像分類装置1aは、クエリ画像データ52が所属するクラスタを決定する。このとき、画像分類装置1aは、ステップS23で算出した距離が最小となるクラスタを、クエリ画像データ52の所属クラスタとする。
【0137】
更にステップS25において画像分類装置1aは、クエリ画像データ52と、画像データベース51に記憶された各画像データと、が分類される過程を、表示装置105に表示する。
【0138】
(クエリ画像特徴量算出部)
図20を参照して、本発明の変形例に係るクエリ画像特徴量算出31が説明される。
まず、ステップS601において、クエリ画像特徴量算出31は、記憶装置107からクエリ画像データ52を読み出し、ステップS602において、クエリ画像データ52の画像全体の色コリログラムを算出する。次にステップS603において、クエリ画像特徴量算出31は、クエリ画像データ52のエッジ領域における色コリログラムを算出する。さらにステップS604において、クエリ画像特徴量算出31は、被写体領域における色コリログラムを算出する。
【0139】
ステップS605において、クエリ画像特徴量算出31は、ステップS602ないしステップS604の出力から、特徴ベクトルを生成する。
【0140】
クエリ画像特徴量算出31は、抽出する特徴量として、分類部10において画像を自動的に分類する際に使用した特徴量を用いる。具体的には、クエリ画像特徴量算出31は、画像全体の色コリログラム、エッジ領域における色コリログラム、被写体領域における色ヒストグラムと色コリログラムを算出する。得られた色ヒストグラム、色コリログラムによる特徴量は、2次形式距離による類似度を算出するため、式10、式13により変換される。クエリ画像特徴量算出31は、これにより得られる値を要素とするベクトルを作成し、これを特徴ベクトルvquery とする。
【0141】
(所属クラスタ決定部)
図21を参照して、本発明の変形例に係る所属クラスタ決定部32を説明する。
まず、ステップS701において、所属クラスタ決定部32は、画像データベース51の各画像データから、特徴ベクトルを生成する。更にステップS702において、所属クラスタ決定部32は、クラスタ統合部14によって生成された各クラスタの特徴ベクトルの平均ベクトルを算出する。
【0142】
次にステップS703において、所属クラスタ決定部32は、クエリ画像データ52の特徴ベクトルと、ステップS702で算出した各クラスタの特徴ベクトルの平均との距離を算出する。ステップS704において、所属クラスタ決定部32は、ステップS703において算出した特徴ベクトル間の距離を最小とするクラスタを、クエリ画像データ52の所属するクラスタとする。
【0143】
所属クラスタ決定部32は、画像データベース51中の各画像データに対して、あらかじめ算出されている特徴量を用いて、クエリ画像データ52の特徴ベクトルと同様の特徴ベクトルを作成する。得られる特徴ベクトルを用いて、各クラスタの特徴ベクトルの平均ベクトルを算出し、得られるベクトルをvi とする。クエリ画像の特徴ベクトルvquery と各クラスタの平均特徴ベクトルvi 間において、次式を用いて距離を算出する。
【0144】
以上の処理により得られるクエリ画像の特徴量と所属するクラスタが、画像データベース51中の画像の特徴量とクラスタと合わせて保存され、可視化の際に使用される。
【0145】
(表示部)
本発明の変形例に係る表示部20aは、クエリ画像分類部30において得られたクエリ画像データ52の特徴量と所属するクラスタの情報を画像データベース51に追加する。さらに表示部20aは、本発明の最良の実施の形態で説明した画像分類装置1と同様に可視化する。
【0146】
本発明の最良の実施の形態で説明した画像分類装置1の表示部20は、画像が互いに類似するクラスタごとに集まっていく過程がアニメーションにより表示された。一方、本発明の変形例に係る画像分類装置1aの表示部20aにおいては、クエリ画像データ52を入力するため、クエリ画像データ52に注目して可視化する。具体的には、表示部20aは、図22に示すように透視変換の際に常に画面中央にクエリ画像が表示されるようにカメラパラメータを更新する。これにより、画面上ではクエリ画像データ52に類似した画像が集まる過程が、可視化されることとなる。
【0147】
表示部20aは、例えば、図22に示す結果画面P203を表示する。この結果画面P203は、本発明の変形例に係る画像分類装置1aにおいて、クエリ画像データ52に類似する画像データを抽出した図である。クエリ画像表示部204には、クエリ画像データ52のサムネイルが表示されている。分類結果表示部203の中心には、クエリ画像データ52のサムネイルが表示され、分類結果表示部203においては、クエリ画像データ52に類似する画像のサムネイルが近くに、類似しない画像のサムネイルが遠くに表示されている。類似画像表示部205には、分類結果表示部203において表示された画像データのうち、クエリ画像データ52と同じクラスタに属する画像データが、類似画像として表示されている。このとき、同じクラスタに属する画像データのうち、特徴ベクトルの近い画像データのみを表示しても良い。
【0148】
以上により、クエリ画像データに類似した画像を検索することが可能となる。本発明の変形例に係る画像分類装置1aは、3次元空間上においてクエリ画像データ52の周囲に類似した画像を配置することで、ユーザが所望の画像を直感的に検索することを実現した。
【0149】
(効果)
本発明の変形例に係る画像分類装置1aは、検索結果を表示する際に3次元空間上において可視化することで、検索結果を効率的に閲覧させることができる。具体的には、画像間の非類似度を3次元空間上における距離とすることで、画像分類装置1aは、ユーザに検索結果を直感的に理解させることができる。さらに、3次元空間上における距離を、画像の非類似度に基づいて設定することで、画像分類装置1aは、検索結果として表示されるクエリ画像以外の画像においても類似した画像が近傍に表示されるため、ユーザに、効率的に検索結果を閲覧をさせることが可能となる。
【0150】
また、本発明の変形例に係る画像分類装置1aは、検索する際に検索対象データベース中の画像におけるクラスタリング結果を利用することで、少ない計算量での効率的な検索を可能とする。具体的には、検索する際には、まず検索対象の画像データベース51中の画像において、最良の実施の形態において説明した方法で、特徴量の算出とクラスタリングが完了しているものとする。そして、クエリ画像データ52が入力された際に、画像分類装置1aは、画像データベース41中のクラスタリング結果を利用してクエリ画像のクラスタリングをすることで、効率的な処理を可能とする。
【0151】
(その他の実施の形態)
上記のように、本発明の最良の実施の形態および変形例によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなる。
例えば、本発明の最良の実施の形態に記載した画像分類装置は、図1に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。又、既存の情報システム上に実現されても良い。
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5A】
4
【図5B】
5
【図6】
6
【図7】
7
【図8】
8
【図9】
9
【図10】
10
【図11A】
11
【図11B】
12
【図11C】
13
【図11D】
14
【図12A】
15
【図12B】
16
【図12C】
17
【図12D】
18
【図13】
19
【図14】
20
【図15】
21
【図16】
22
【図17A】
23
【図17B】
24
【図17C】
25
【図18】
26
【図19】
27
【図20】
28
【図21】
29
【図22】
30