TOP > 国内特許検索 > マルチメディア情報検索システム及びプログラム > 明細書

明細書 :マルチメディア情報検索システム及びプログラム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第4621909号 (P4621909)
公開番号 特開2006-155042 (P2006-155042A)
登録日 平成22年11月12日(2010.11.12)
発行日 平成23年2月2日(2011.2.2)
公開日 平成18年6月15日(2006.6.15)
発明の名称または考案の名称 マルチメディア情報検索システム及びプログラム
国際特許分類 G06F  17/30        (2006.01)
G06T   1/00        (2006.01)
G10L  11/00        (2006.01)
G06T   7/00        (2006.01)
FI G06F 17/30 350C
G06F 17/30 170B
G06F 17/30 170E
G06T 1/00 200E
G10L 11/00 402B
G10L 11/00 402C
G06T 7/00 P
請求項の数または発明の数 12
全頁数 32
出願番号 特願2004-342304 (P2004-342304)
出願日 平成16年11月26日(2004.11.26)
新規性喪失の例外の表示 特許法第30条第1項適用 2004年5月28日 社団法人映像情報メディア学会発行の「映像情報メディア学会技術報告 映情学技報 Vol.28 No.27」に発表
特許法第30条第1項適用 2004年9月24日 社団法人映像情報メディア学会発行の「映像情報メディア学会技術報告 映情学技報 Vol.28 No.58」に発表
特許法第30条第1項適用 2004年11月5日から7日 社団法人情報処理学会発行の「情報処理学会研究報告 情処研報Vol.2004 No.111」に発表
審査請求日 平成19年11月13日(2007.11.13)
特許権者または実用新案権者 【識別番号】800000068
【氏名又は名称】学校法人東京電機大学
発明者または考案者 【氏名】柴田 滝也
【氏名】川崎 由加里
【氏名】川崎 舞佳
【氏名】金森 淳香
個別代理人の代理人 【識別番号】100083806、【弁理士】、【氏名又は名称】三好 秀和
【識別番号】100100712、【弁理士】、【氏名又は名称】岩▲崎▼ 幸邦
【識別番号】100100929、【弁理士】、【氏名又は名称】川又 澄雄
【識別番号】100095500、【弁理士】、【氏名又は名称】伊藤 正和
【識別番号】100101247、【弁理士】、【氏名又は名称】高橋 俊一
【識別番号】100098327、【弁理士】、【氏名又は名称】高松 俊雄
審査官 【審査官】波内 みさ
参考文献・文献 特開2001-184357(JP,A)
特開平11-308513(JP,A)
国際公開第2004/046965(WO,A2)
長田 典子,音と色のノンバーバルマッピング-色聴保持者のマッピング抽出とその応用-,電子情報通信学会論文誌 (J86-A) 第11号,日本,社団法人電子情報通信学会,2003年11月 1日,第J86-A巻 第11号,1219~1230
宝珍 輝尚,感性に基づくマルチメディアデータの関連付けに関する一考察,電子情報通信学会技術研究報告 Vol.100 No.500,日本,社団法人電子情報通信学会,2000年12月 8日,第100巻 第500号,19~24
調査した分野 G06F 17/30
G06T 1/00
G06T 7/00
G10L 11/00
特許請求の範囲 【請求項1】
表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、
画像識別子と画像データと画像特徴量とを対応させた画像レコードを多種類登録している画像データベースと、
前記入出力処理部に入力された音データを周波数分析し、音特徴量を生成する音分析部と、
前記音分析部の生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理部と、
前記音・画像マッチング処理部の決定した画像特徴量をキーにして前記画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索部とを備え
前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数A1】
JP0004621909B2_000031t.gif
の画像特徴量算出式に基づいて算出した画像特徴量Crg,Cybとを対応させた画像レコードを多種類保持しており、
前記音分析部は、入力された音データに対して、
【数A2】
JP0004621909B2_000032t.gif
式に基づいて、音特徴量Cfを求め、
前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像特徴量Crg,Cybとの対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像特徴量Crg,Cygを決定することを特徴とするマルチメディア情報検索システム。
【請求項2】
表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、
画像識別子と画像データと画像特徴量とを対応させた画像レコードを多種類登録している画像データベースと、
前記入出力処理部に入力された音データを周波数分析し、音特徴量を生成する音分析部と、
前記音分析部の生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理部と、
前記音・画像マッチング処理部の決定した画像特徴量をキーにして前記画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索部とを備え、
前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数B1】
JP0004621909B2_000033t.gif
の画像特徴量算出式に基づいて算出した画像特徴量としての彩度Cs1又はCs2とを対応させた画像レコードを多種類保持しており、
前記音分析部は、入力された音データに対して、
【数B2】
JP0004621909B2_000034t.gif
式に基づいて、音特徴量Cfを求め、
前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像彩度Cs1又はCs2との対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像彩度Cs1又はCs2を決定することを特徴とするマルチメディア情報検索システム。
【請求項3】
表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、
画像識別子と画像データと画像特徴量とを対応させた画像レコードを多種類登録している画像データベースと、
前記入出力処理部に入力された音データを周波数分析し、音特徴量を生成する音分析部と、
前記音分析部の生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理部と、
前記音・画像マッチング処理部の決定した画像特徴量をキーにして前記画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索部とを備え、
前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数C1】
JP0004621909B2_000035t.gif
の画像特徴量算出式に基づいて算出した画像特徴量としての明度Cbrとを対応させた画像レコードを多種類保持しており、
前記音分析部は、入力された音データに対して、
【数C2】
JP0004621909B2_000036t.gif
式に基づいて、音特徴量Cfを求め、
前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像明度Cbrとの対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像明度Cbrを決定することを特徴とするマルチメディア情報検索システム。
【請求項4】
表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、
音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースと、
前記入出力処理部に入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析部と、
前記画像分析部の生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理部と、
前記画像・音マッチング処理部の決定した音特徴量をキーにして前記音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索部とを備え、
前記音データベースは、音識別子と、音データと、当該音データに対して、
【数D1】
JP0004621909B2_000037t.gif
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
前記画像分析部は、入力された画像データに対して、
【数D2】
JP0004621909B2_000038t.gif
式に基づいて、画像特徴量Crg,Cybを求め、
前記画像・音マッチング処理部は、画像特徴量Crg,Cybとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像特徴量Crg,Cybに対して当該対応データを参照して当該画像特徴量にマッチングする音特徴量Cfを決定することを特徴とするマルチメディア情報検索システム。
【請求項5】
表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、
音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースと、
前記入出力処理部に入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析部と、
前記画像分析部の生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理部と、
前記画像・音マッチング処理部の決定した音特徴量をキーにして前記音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索部とを備え
前記音データベースは、音識別子と、音データと、当該音データに対して、
【数E1】
JP0004621909B2_000039t.gif
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
前記画像分析部は、入力された画像データに対して、
【数E2】
JP0004621909B2_000040t.gif
式に基づいて、画像特徴量としての彩度Cs1又はCs2を求め、
前記画像・音マッチング処理部は、画像特徴量Cs1又はCs2とこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像彩度Cs1又はCs2に対して当該対応データを参照して当該画像彩度にマッチングする音特徴量Cfを決定することを特徴とするマルチメディア情報検索システム。
【請求項6】
表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、
音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースと、
前記入出力処理部に入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析部と、
前記画像分析部の生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理部と、
前記画像・音マッチング処理部の決定した音特徴量をキーにして前記音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索部とを備え、
前記音データベースは、音識別子と、音データと、当該音データに対して、
【数F1】
JP0004621909B2_000041t.gif
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
前記画像分析部は、入力された画像データに対して、
【数F2】
JP0004621909B2_000042t.gif
式に基づいて、画像特徴量としての明度Cbrを求め、
前記画像・音マッチング処理部は、画像明度Cbrとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像明度Cbrに対して当該対応データを参照して当該画像明度にマッチングする音特徴量Cfを決定することを特徴とするマルチメディア情報検索システム。
【請求項7】
入力された音データを周波数分析し、音特徴量を生成する音分析ステップと、
前記音分析ステップで生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理ステップと、
前記音・画像マッチング処理ステップで決定した画像特徴量をキーにして、画像識別子と画像データと画像特徴量とを対応させた画像レコードを多数保持している画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムであって、
前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数G1】
JP0004621909B2_000043t.gif
の画像特徴量算出式に基づいて算出した画像特徴量Crg,Cybとを対応させた画像レコードを多種類保持しており、
前記音分析ステップでは、入力された音データに対して、
【数G2】
JP0004621909B2_000044t.gif
式に基づいて、音特徴量Cfを求め、
前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像特徴量Crg,Cybとの対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像特徴量Crg,Cygを決定することを特徴とするマルチメディア情報検索プログラム。
【請求項8】
入力された音データを周波数分析し、音特徴量を生成する音分析ステップと、
前記音分析ステップで生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理ステップと、
前記音・画像マッチング処理ステップで決定した画像特徴量をキーにして、画像識別子と画像データと画像特徴量とを対応させた画像レコードを多数保持している画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムであって、
前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数H1】
JP0004621909B2_000045t.gif
の画像特徴量算出式に基づいて算出した画像特徴量としての彩度Cs1又はCs2とを対応させた画像レコードを多種類保持しており、
前記音分析ステップでは、入力された音データに対して、
【数H2】
JP0004621909B2_000046t.gif
式に基づいて、音特徴量Cfを求め、
前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像彩度Cs1又はCs2との対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像彩度Cs1又はCs2を決定することを特徴とするマルチメディア情報検索プログラム
【請求項9】
入力された音データを周波数分析し、音特徴量を生成する音分析ステップと、
前記音分析ステップで生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理ステップと、
前記音・画像マッチング処理ステップで決定した画像特徴量をキーにして、画像識別子と画像データと画像特徴量とを対応させた画像レコードを多数保持している画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムであって、
前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数I1】
JP0004621909B2_000047t.gif
の画像特徴量算出式に基づいて算出した画像特徴量としての明度Cbrとを対応させた画像レコードを多種類保持しており、
前記音分析ステップでは、入力された音データに対して、
【数I2】
JP0004621909B2_000048t.gif
式に基づいて、音特徴量Cfを求め、
前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像明度Cbrとの対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像明度Cbrを決定することを特徴とするマルチメディア情報検索プログラム
【請求項10】
入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析ステップと、
前記画像分析ステップで生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理ステップと、
前記画像・音マッチング処理ステップで決定した音特徴量をキーにして、音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムであって、
前記音データベースは、音識別子と、音データと、当該音データに対して、
【数J1】
JP0004621909B2_000049t.gif
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
前記画像分析ステップでは、入力された画像データに対して、
【数J2】
JP0004621909B2_000050t.gif
式に基づいて、画像特徴量Crg,Cybを求め、
前記画像・音マッチング処理ステップでは、画像特徴量Crg,Cybとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像特徴量Crg,Cybに対して当該対応データを参照して当該画像特徴量にマッチングする音特徴量Cfを決定することを特徴とするマルチメディア情報検索プログラム。
【請求項11】
入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析ステップと、
前記画像分析ステップで生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理ステップと、
前記画像・音マッチング処理ステップで決定した音特徴量をキーにして、音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムであって、
前記音データベースは、音識別子と、音データと、当該音データに対して、
【数K1】
JP0004621909B2_000051t.gif
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
前記画像分析ステップでは、入力された画像データに対して、
【数K2】
JP0004621909B2_000052t.gif
式に基づいて、画像特徴量としての彩度Cs1又はCs2を求め、
前記画像・音マッチング処理ステップでは、画像特徴量Cs1又はCs2とこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像彩度Cs1又はCs2に対して当該対応データを参照して当該画像彩度にマッチングする音特徴量Cfを決定することを特徴とするマルチメディア情報検索プログラム。
【請求項12】
入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析ステップと、
前記画像分析ステップで生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理ステップと、
前記画像・音マッチング処理ステップで決定した音特徴量をキーにして、音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムであって、
前記音データベースは、音識別子と、音データと、当該音データに対して、
【数L1】
JP0004621909B2_000053t.gif
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
前記画像分析ステップでは、入力された画像データに対して、
【数L2】
JP0004621909B2_000054t.gif
式に基づいて、画像特徴量としての明度Cbrを求め、
前記画像・音マッチング処理ステップでは、画像明度Cbrとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像明度Cbrに対して当該対応データを参照して当該画像明度にマッチングする音特徴量Cfを決定することを特徴とするマルチメディア情報検索プログラム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、コントラストモデルを用いたマルチメディア情報検索システム及びプログラムに関する。
【背景技術】
【0002】
従来、インターネット上の検索に利用されるGoogle(登録商標)、Yahoo!(登録商標)のような検索システムは、テキストによる検索が主であり、テキスト以外の異なるメディア情報間の検索システムはほとんど知られていない。また画像情報や音情報のような異なるメディアデータを編集には各種情報に関連する知識が必要とされ、専門技術者でなければこのような情報の編集ができない。しかも専門技術者であってもインターネット上にあるメディア情報をすべて見ることはできない。反面、現在、高度な専門知識を有しないユーザが多量に流されるインターネット上のマルチメディアデータにアクセスするようになってきている。また、地上波ディジタル放送が解禁されると、その放送に流すコンテンツの重要が増加することが予想される。
【0003】
このような現実では、高度な知識を有しない一般ユーザであっても異なるメディアデータを編集できるシステムが存在するようになれば、コンテンツの内容の幅が広がり、将来のコンテンツ産業の拡大が期待できる。
【発明の開示】
【発明が解決しようとする課題】
【0004】
本発明は、このような従来の技術的課題に鑑みてなされたもので、ユーザが画像情報をキーにその画像情報とマッチングする音情報を音データベースから検索できるマルチメディア情報検索システム及びプログラムを提供することを目的とする。
【0005】
本発明はまた、ユーザが音情報をキーにその音情報とマッチングする画像情報を画像データベースから検索できるマルチメディア情報検索システム及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の特徴は、表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、画像識別子と画像データと画像特徴量とを対応させた画像レコードを多種類登録している画像データベースと、前記入出力処理部に入力された音データを周波数分析し、音特徴量を生成する音分析部と、前記音分析部の生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理部と、前記音・画像マッチング処理部の決定した画像特徴量をキーにして前記画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索部とを備えたマルチメディア情報検索システムにある。
【0007】
ここで、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数M1】
JP0004621909B2_000002t.gif
の画像特徴量算出式に基づいて算出した画像特徴量Crg,Cybとを対応させた画像レコードを多種類保持しており、前記音分析部は、入力された音データに対して、
【数M2】
JP0004621909B2_000003t.gif
式に基づいて、音特徴量Cfを求め、前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像特徴量Crg,Cybとの対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像特徴量Crg,Cygを決定するものとすることができる。
【0008】
また、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数N】
JP0004621909B2_000004t.gif
の画像特徴量算出式に基づいて算出した画像特徴量としての彩度Cs1又はCs2とを対応させた画像レコードを多種類保持しており、前記音分析部は、入力された音データに対して、前記音特徴量Cfを求め、前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像彩度Cs1又はCs2との対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像彩度Cs1又はCs2を決定するものとすることができる。
【0009】
また、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数O】
JP0004621909B2_000005t.gif
の画像特徴量算出式に基づいて算出した画像特徴量としての明度Cbrとを対応させた画像レコードを多種類保持しており、前記音分析部は、入力された音データに対して、前記音特徴量Cfを求め、前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像明度Cbrとの対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像明度Cbrを決定するものとすることができる。
【0010】
本発明の第2の特徴は、表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースと、前記入出力処理部に入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析部と、前記画像分析部の生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理部と、前記画像・音マッチング処理部の決定した音特徴量をキーにして前記音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索部とを備えたマルチメディア情報検索システムにある。
【0011】
ここで、前記音データベースは、音識別子と、音データと、当該音データに対して、
【数P1】
JP0004621909B2_000006t.gif
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析部は、入力された画像データに対して、
【数P2】
JP0004621909B2_000007t.gif
式に基づいて、画像特徴量Crg,Cybを求め、前記画像・音マッチング処理部は、画像特徴量Crg,Cybとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像特徴量Crg,Cybに対して当該対応データを参照して当該画像特徴量にマッチングする音特徴量Cfを決定するものとすることができる。
【0012】
また、前記音データベースは、音識別子と、音データと、当該音データに対して、前記音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析部は、入力された画像データに対して、
【数Q】
JP0004621909B2_000008t.gif
式に基づいて、画像特徴量としての彩度Cs1又はCs2を求め、前記画像・音マッチング処理部は、画像特徴量Cs1又はCs2とこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像彩度Cs1又はCs2に対して当該対応データを参照して当該画像彩度にマッチングする音特徴量Cfを決定するものとすることができる。
【0013】
また、前記音データベースは、音識別子と、音データと、当該音データに対して、前記音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析部は、入力された画像データに対して、
【数R】
JP0004621909B2_000009t.gif
式に基づいて、画像特徴量としての明度Cbrを求め、前記画像・音マッチング処理部は、画像明度Cbrとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像明度Cbrに対して当該対応データを参照して当該画像明度にマッチングする音特徴量Cfを決定するものとすることができる。
【0014】
本発明の第3の特徴は、入力された音データを周波数分析し、音特徴量を生成する音分析ステップと、前記音分析ステップで生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理ステップと、前記音・画像マッチング処理ステップで決定した画像特徴量をキーにして、画像識別子と画像データと画像特徴量とを対応させた画像レコードを多数保持している画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムにある。
【0015】
ここで、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数S1】
JP0004621909B2_000010t.gif
の画像特徴量算出式に基づいて算出した画像特徴量Crg,Cybとを対応させた画像レコードを多種類保持しており、前記音分析ステップでは、入力された音データに対して、
【数S2】
JP0004621909B2_000011t.gif
式に基づいて、音特徴量Cfを求め、前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像特徴量Crg,Cybとの対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像特徴量Crg,Cygを決定するものとすることができる。
【0016】
また、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数T】
JP0004621909B2_000012t.gif
の画像特徴量算出式に基づいて算出した画像特徴量としての彩度Cs1又はCs2とを対応させた画像レコードを多種類保持しており、前記音分析ステップでは、入力された音データに対して、前記音特徴量Cfを求め、前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像彩度Cs1又はCs2との対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像彩度Cs1又はCs2を決定するものとすることができる。
【0017】
また、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
【数U】
JP0004621909B2_000013t.gif
の画像特徴量算出式に基づいて算出した画像特徴量としての明度Cbrとを対応させた画像レコードを多種類保持しており、前記音分析ステップでは、入力された音データに対して、前記音特徴量Cfを求め、前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像明度Cbrとの対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像明度Cbrを決定するものとすることができる。
【0018】
本発明の第4の特徴は、入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析ステップと、前記画像分析ステップで生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理ステップと、前記画像・音マッチング処理ステップで決定した音特徴量をキーにして、音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムにある。
【0019】
ここで、前記音データベースは、音識別子と、音データと、当該音データに対して、
【数V1】
JP0004621909B2_000014t.gif
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析ステップでは、入力された画像データに対して、
【数V2】
JP0004621909B2_000015t.gif
式に基づいて、画像特徴量Crg,Cybを求め、前記画像・音マッチング処理ステップでは、画像特徴量Crg,Cybとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像特徴量Crg,Cybに対して当該対応データを参照して当該画像特徴量にマッチングする音特徴量Cfを決定するものとすることができる。
【0020】
また、前記音データベースは、音識別子と、音データと、当該音データに対して、前記音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析ステップでは、入力された画像データに対して、
【数W】
JP0004621909B2_000016t.gif
式に基づいて、画像特徴量としての彩度Cs1又はCs2を求め、前記画像・音マッチング処理ステップでは、画像特徴量Cs1又はCs2とこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像彩度Cs1又はCs2に対して当該対応データを参照して当該画像彩度にマッチングする音特徴量Cfを決定するものとすることができる。
【0021】
また、前記音データベースは、音識別子と、音データと、当該音データに対して、前記音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析ステップでは、入力された画像データに対して、
【数X】
JP0004621909B2_000017t.gif
式に基づいて、画像特徴量としての明度Cbrを求め、前記画像・音マッチング処理ステップでは、画像明度Cbrとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像明度Cbrに対して当該対応データを参照して当該画像明度にマッチングする音特徴量Cfを決定するものとすることができる。
【発明の効果】
【0022】
本発明によれば、ユーザが入力される画像情報をキーにその画像情報とマッチングする音情報をデータベースから検索できる。
【0023】
また本発明によれば、ユーザが入力される音情報をキーにその音情報とマッチングする画像情報をデータベースから検索できる。
【発明を実施するための最良の形態】
【0024】
以下、本発明の実施の形態を図に基づいて詳説する。
【0025】
(第1の実施の形態)図1は本発明の1つの実施の形態のマルチメディア情報検索システムの構成を示している。本実施の形態のマルチメディア情報検索システムは、入力された音データに調和する画像データを検索して抽出する機能、また入力された画像データに調和する音データを検索して抽出する機能を備えていて、表示装置10、図示しないプリンタやネットワークに対する情報出力、キーボード11、図示しないポインティングデバイスやネットワークからの情報入力を処理する入出力処理部1、入力された音データを分析して保存処理する音分析部2、入力された画像データを分析し保存処理する画像分析部3、音分析部2にて分析された音データを保存する音データベース4、画像分析部3にて分析された画像データを保存する画像データベース5、音データとマッチする画像データの検索又はその逆の検索を実行し、入力された音データにマッチする画像データ、又は入力された画像データにマッチする音データを抽出するマッチング処理部6、これらのすべての要素をプログラムに従って制御する制御部7を備えている。なお、本システムは本来、コンピュータシステムに当該諸機能を備えたマルチメディア情報検索プログラムをインストールして実行させることにより実現されるものであるが、ここでは説明の便宜のために音分析部2、画像分析部3、マッチング処理部6等、個別のブロックに分けて示している。
【0026】
次に、上記構成のマルチメディア情報検索システムによる検索動作について説明する。まず、音データベース4、画像データベース5に音データ、画像データを登録する処理を説明する。音特徴量算出式に基づいて多数の音データそれぞれの音特徴量を算出し、音識別子と音データとこの音特徴量とを対応させて音データベース4に登録する。同様に画像特徴量算出式に基づいて多数の画像データそれぞれの画像特徴量を算出し、画像識別子と画像データとこの画像特徴量とを対応させて画像データベース5に登録する。
【0027】
まず、画像のコントラストモデルを以下のように定義する。
【数1】
JP0004621909B2_000018t.gif

【0028】
コントラストの計算は、画像全体のRGBそれぞれの平均値r,g,bを求めた後、(1)、(2)式に代入し、コントラスト値Crg,Cybを求める。そして、彩度の近似式Cs1,Cs2を(3)、(4)式にて求める。
【数2】
JP0004621909B2_000019t.gif

【0029】
調和に関連して、ムーン・スペンサーは二色配色の色彩調和の理論を提案している(乾敏郎著、「建築の色彩設計」、鹿島出版会、1976年)。それによれば、図2、図3に示したように、色相、彩度、明度の「同等」、「類似」の二色配色では調和度が高くなる一方、少し異種の色相、彩度、明度では調和度が低くなる。そしてこの現象はすべての色相、彩度、明度に相対的に起こる。
【0030】
一方、同じような現象が二音和音(純音)にも起こる。異なる周波数から成る二音和音において、その周波数との差によって協和・不協和が生じる。図4は周波数差と協和・不協和との分布を示している(Plomp&Leveltの分布)が、色相の場合と同様に二音和音の協和度は周波数が同等、接近しているときには高くなる一方、少し周波数が離れると不協和度が大きくなり、V字型の分布となる。
【0031】
この現象を踏まえ、画像データに関して導き出したのが上式(1)~(4)である。これを用いて、横軸を色相(0°から360°)、縦軸を画像コントラスト値にした分布を図5に示している。この図5のグラフを見れば、図4の周波数差と協和度・不協和度との分布と同じようなV字型の分布になっていることが分かる。
【0032】
<実験1の内容>
次に、画像コントラストモデルと音の協和音・不協和音との間での調和・不調和の関係を検証するために、次のような心理実験1を実施した。つまり、明るい色調の画像には協和音が調和すると感じるか、不協和音が調和すると感じるか、また逆に暗い色調の画像には協和音が調和すると感じるか、不協和音が調和すると感じるかをテストした。
【0033】
・画像サンプル:黒地に紫の画像、和紙テクスチャ、樹木表面、空、イチョウの葉、カラフルビーズの計6種類。
【0034】
・和音サンプル:協和音2種類(A4-C4、A4-F4)、不協和音2種類(G8-A4、A4-A#4)の二音和音計4種類。
【0035】
・実験サンプル:二音和音のみ4種類、自然画像6種類×二音和音4種類、計28サンプル。音サンプルは電子ピアノの生演奏。
【0036】
・有効被験者:20歳代前半の大学生8名。
【0037】
・スケール:調和度・不調和度を7段階(1に近いほど調和度が高い)で評価する。
【0038】
画像コントラストモデル値Crg,Cybとこの実験結果による調和度・不調和度の関係を図6、図7に示している。この結果から、図6に示すように、協和音については、コントラスト値Crgとの調和度が正の相関(図6では負であるが、調和度が小さいと調和となるため)があり、コントラスト値Crgが大きいほど調和度が上がる傾向を確認できる。他方、Cybとの相関は弱い。図7に示すように、不協和音については、コントラスト値Cybとの調和度が負の相関があり、コントラスト値Cybが小さいほど調和度が上がる傾向がある。他方、Crgとの相関は弱い。つまり、調和度を上げる方法としては、協和音にはコントラスト値Crgが大きい画像、他方、不協和音にはコントラスト値Cybが小さい画像が有効であることが分かった。
【0039】
これから、画像と音の調和・不調和について判断する場合、二音和音が協和音あるいは不協和音かによって調和する画像が異なる。したがって、画像と音との調和・不調和を推定するためには二音和音が協和音か不協和音かを推定した上でマッチングする画像を決める必要がある。
【0040】
上述の二音和音の周波数の差と協和度・不協和度の分布を参考にして構築した数式による推定モデルは次の通りである。この推定モデルを構築する上で、次の項目を前提条件とした。
【0041】
(a)1オクターブ内でのモデル。
【0042】
(b)1オクターブ内の最小周波数f0と最大周波数f1(=2f0)を利用。
【0043】
(c)ウェーバーの法則を利用。
【0044】
(d)画像のコントラストモデルを参考。
【0045】
上の(a)、(b)の条件より、fをオクターブ内の任意の周波数、f0を1オクターブ内の最小周波数=基準周波数、f1(=2f0)を1オクターブ内の最大周波数とする。上の(1)式の画像コントラストモデルにおいて、変数はr,gの2変数からなっており、二音和音では周波数fだけの1変数である。図4のようなV字型の分布にするためには、上の条件(c)のウェーバーの法則を用い、2つの変数fa,fbを次の(5)、(6)式のように定義した。ここで、faは周波数fと基準周波数f0との差を基準周波数f0で割り、fbは最大周波数f1と周波数fとの差を基準周波数f0で割った値とする。
【数3】
JP0004621909B2_000020t.gif

【0046】
また上の条件(d)より、(1)、(2)式の画像コントラストモデルを参考にして、周波数コントラストモデルCf’を次の(7)式のように定義する。
【数4】
JP0004621909B2_000021t.gif

【0047】
しかし、Plomp&Leveltの分布により、最不協和になるときCf=0にならないので、次の(8)式のようにパラメータαを導入する。これによって、Cf=0のときの周波数の値が変化する。
【数5】
JP0004621909B2_000022t.gif

【0048】
(5)、(6)式をこの(8)式に代入すると、
【数6】
JP0004621909B2_000023t.gif

【0049】
となる。
【0050】
Cf=0のとき、fの値をf’とすると、
【数7】
JP0004621909B2_000024t.gif

【0051】
である。ここで、Zwickerらの臨界帯域幅fwのモデル式を、
【数8】
JP0004621909B2_000025t.gif

【0052】
と近似する。そうすれば、Plomp&Leveltの分布は、
【数9】
JP0004621909B2_000026t.gif

【0053】
のときに0(=Cf)となるので、(11)式より、
【数10】
JP0004621909B2_000027t.gif

【0054】
が得られる。そこで、(10)、(12)式よりf’を消去すれば、次の(13)式が得られる。
【数11】
JP0004621909B2_000028t.gif

【0055】
(9)式にこの(13)式を代入すると、
【数12】
JP0004621909B2_000029t.gif

【0056】
となる。図8は基準周波数がf0=440Hzのとき、図9は基準周波数がf0=880Hzのときの周波数fとCf値の分布を示している。よって、(1)、(2)、(14)式を用いて、画像と音の調和・不調和を自動推定することが可能になる。そしてさらに実験と解析を続けたところ、実際には、画像の彩度と音の協和度、また画像の彩度と音の不協和度との間に相関があることが見出せた。
【0057】
図1に示した本実施の形態のシステムは、この(3)、(4)式と(12)式を演算し、この結果から、画像と音の調和度・不調和度を自動推定し、与えられた音にマッチングする画像を抽出し、また逆に与えられた画像にマッチングする音を抽出する。
【0058】
<データベースへの登録>
まず、音データベース4、画像データベース5に対するデータ蓄積処理は、次による。記録メディアあるいはネットワークを通じて多種類の音データを順次、入出力処理部1を通じて入力し、音分析部2によって(14)式に基づいて協和度・不協和度を演算し、識別子、音データ、演算結果を音データベース4に順次登録しておく。同様に、記録メディアあるいはネットワークを通じて多種類の画像データを順次、入出力処理部1を通じて入力し、画像分析部3によって(3)、(4)式に基づいて彩度を演算し、識別子、画像データ、演算結果を画像データベース5に順次登録しておく。
【0059】
<音をキーにした画像検索>
入力される音データをキーにして調和する画像を検索して抽出する処理を、図10のフローチャートを用いて説明する。入力される音データに対して、その協和度、不協和度を(14)式によって分析する(ステップS1,S2)。協和音とする基準は、0.6<Cf≦1.0、逆に不協和音とする基準は、0≦Cf<0.3、そして0.3≦Cf≦0.6はそのどちらでもないとする。
【0060】
続いて、この音データの協和度・不協和度に応じて調和度の高い画像の彩度を決定するマッチング処理をし(ステップS3)、その彩度を持つ画像データを画像データベース5から抽出する(ステップS4)。
【0061】
<画像をキーにした音検索>
入力される画像データをキーにして調和する音を検索して抽出する処理を、図11のフローチャートを用いて説明する。入力される画像データに対して、その彩度を(3)、(4)式によって分析する(ステップS11,S12)。
【0062】
続いて、この画像データの彩度に応じて調和度の高い音の協和度、不協和度を決定するマッチング処理をし(ステップS13)、その協和度、不協和度を持つ音データを音データベース4から抽出する(ステップS14)。つまり、0.6<Cf≦1.0のCfを持つ音データを協和音として抽出し、逆に0≦Cf<0.3のCfを持つ音データを不協和音として抽出する。
【0063】
以上の処理により、本発明のシステムでは、入力される音データに対してマッチングする画像データを画像データベースを検索して抽出してユーザに提案することができ、また逆に入力される画像データに対してマッチングする音データを音データベースを検索して抽出してユーザに提案することができる。
【0064】
なお、上記実施の形態では画像データについては静止画像について説明したが、動画像データについても各フレームごとに、あるいは一定時間間隔のフレームごとの画像特徴量を算出することで、音データとの調和を考えることができる。
【0065】
(第2の実施の形態)本発明の第2の実施の形態のマルチメディア情報検索システムについて説明する。第2の実施の形態のシステムの構成は図1に示した第1の実施の形態と同様であるが、画像データを分析して画像特徴量を算出するために用いる式が異なっている。
【0066】
すなわち、本実施の形態では、画像分析部3にて入力される画像データのRGBについて画像全体で次の(15)式によって明度Cbrを算出する。そして画像識別子と画像データとこの画像特徴量としての明度データとを対応させ、多数の画像データについて画像データベース5に登録しておく。但し、(15)式において「256」はRGB各階調を0~255の256段階で表示している場合に正規化するための数値であり、システムが採用する画像データのフォーマットによって異なるものである。
【数13】
JP0004621909B2_000030t.gif

【0067】
また入力される画像データに対して調和度の高い音データを音データベース4から抽出する処理では、画像分析部3において入力された画像データに対して上述の演算によって画像特徴量を算出し、マッチング処理部6において得られた画像特徴量に対して調和度の高い音特徴量、すなわち、協和音であるか不協和音であるかを判断し、該当するCf値を持つ音データを音データベース4から抽出するのである。本実施の形態でも、明度Cbrの高い画像データに対しては協和音が調和し、明度Cbrの低い画像データに対しては不協和音が調和するものとして音データベース4から抽出する。
【0068】
この第2の実施の形態のマルチメディア情報検索システムによれば、明るい画像に協和音が対応し、暗い画像に対して不協和音が対応し、相互に検索することができる。なお、上記実施の形態でも画像データについては静止画像について説明したが、動画像データについても各フレームごとに、あるいは一定時間間隔のフレームごとの画像特徴量を算出することで、音データとの調和を考えることができる。
【0069】
<実験2の内容>
次に、画像明度と音の協和音・不協和音との間での調和・不調和の関係を検証するために、次のような心理実験2を実施した。つまり、明るい画像には協和音が調和すると感じるか、不協和音が調和すると感じるか、また逆に暗い画像には協和音が調和すると感じるか、不協和音が調和すると感じるかをテストした。
【0070】
・画像サンプル:画像データ2000種類から26種類を選定。
【0071】
・和音サンプル:協和音1種類、不協和音1種類の二音和音計2種類。
【0072】
・実験サンプル:二音和音のみ2種類、自然画像26種類×二音和音2種類、計54サンプル。音サンプルは電子ピアノの生演奏。
【0073】
・有効被験者:20代前半の大学生16名。
【0074】
・スケール:調和度・不調和度を7段階(1に近いほど調和度が高い)で評価する。
【0075】
この実験2データ結果として、明度Cbrと調和度・不調和度の関係を図12、図13に示す。その結果から、図12に示すように、協和音については、明度Cbrは調和度と正の相関(図12では負だが、調和度が小さいと調和となるため)があり、明度Cbrが大きいほど調和度が上がる傾向があることが確認できた。また、図13に示すように、不協和音については、明度Cbrと負の相関があり、明度Cbrが小さいほど調和度が上がる傾向があることが確認できた。よって、調和度を上げる方法として、協和音には明度Cbrが大きい画像、一方、不協和音には明度Cbrが小さい画像が有効であると結論できた。
【0076】
なお、上記第1、第2の実施の形態では、音データから調和度の高い画像データを検索して抽出する機能とその逆の検索・抽出機能を併有するシステムを示したが、音データから調和度の高い画像データを検索・抽出するだけの機能、あるいは逆に画像データから調和度の高い音データを検索・抽出するだけの機能の片方向だけの機能を有するマルチメディア情報検索システムを構築することも可能である。
【産業上の利用可能性】
【0077】
本発明によれば、入力される音に対してマッチングする画像をデータベースを検索して抽出してユーザに提案することができ、または入力される画像に対してマッチングする音をデータベースを検索して抽出してユーザに提案することができるので、ある音楽を演奏している場所でスクリーンにその音楽の推移していく各部の協和度、不協和度に応じて調和する彩度の画像を連続的に変化させながら表示していくことができ、また逆に、ある映像を投影している場所で音空間にその映像の彩度の変化に応じて調和する協和度、不協和度の音を連続的に変化させながら再生していくことができ、再生する音と映像のマッチングが図れる。
【図面の簡単な説明】
【0078】
【図1】本発明の1つの実施の形態のマルチメディア情報検索システムのブロック図。
【図2】二色配色の色相間の調和、不調和の関係を示す図。
【図3】二色配色の彩度、明度間の調和、不調和の関係を示す別の図。
【図4】二音和音の周波数差と協和・不協和の関係を示すグラフ。
【図5】画像の色相とコントラストモデル値Crg,Cybとの関係分布を示すグラフ。
【図6】画像コントラストモデル値Crg,Cybと協和音との調和度の相関グラフ。
【図7】画像コントラストモデル値Crg,Cybと不協和音との調和度の相関グラフ。
【図8】基準周波数440Hzに対する他の音の周波数fと調和度Cfとの関係を示すグラフ。
【図9】基準周波数880Hzに対する他の音の周波数fと調和度Cfとの関係を示すグラフ。
【図10】上記実施の形態による音情報をキーにした画像情報検索処理のフローチャート。
【図11】上記実施の形態による画像情報をキーにした音情報検索処理のフローチャート。
【図12】画像明度Cbrと協和音との調和度の相関グラフ。
【図13】画像明度Cbrと不協和音との調和度の相関グラフ。
【符号の説明】
【0079】
1 入出力処理部
2 音分析部
3 画像分析部
4 音データベース
5 画像データベース
6 マッチング処理部
7 制御部
10 表示装置
11 キーボード
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12