TOP > 国内特許検索 > 動画検索装置および動画検索プログラム

動画検索装置および動画検索プログラム

国内特許コード P120007780
整理番号 P2007-130-JP02
掲載日 2012年7月12日
出願番号 特願2010-503907
登録番号 特許第5339303号
出願日 平成21年3月18日(2009.3.18)
登録日 平成25年8月16日(2013.8.16)
国際出願番号 JP2009055315
国際公開番号 WO2009116582
国際出願日 平成21年3月18日(2009.3.18)
国際公開日 平成21年9月24日(2009.9.24)
優先権データ
  • 特願2008-072537 (2008.3.19) JP
発明者
  • 長谷山 美紀
出願人
  • 国立大学法人北海道大学
発明の名称 動画検索装置および動画検索プログラム
発明の概要 動画データが記憶された動画データベース11と、動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部21と、シーン分割部11によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データ12を生成するビデオ信号類似度算出部23と、ビデオ信号類似度データ12に基づいて、シーン間の類似度が一定の閾値よりも小さいシーンを検索するビデオ信号類似度検索部26と、ビデオ信号類似度検索部26によって検索された各シーンについて該類似度に対応する座標を取得して表示するビデオ信号類似度表示部29を備える。
従来技術、競合技術の概要


近年の記憶媒体の大容量化やインターネットによる映像配信サービスの普及に伴い、ユーザは大量の映像を入手可能となった。しかしながら、ユーザが特定の映像を明示せずに、所望の映像を入手することは一般に困難である。これは、膨大なデータベースにおける映像の入手が、主に映像名や製作元等のキーワードを用いた検索に依存していることに起因する。このため、キーワードによる映像検索だけでなく、映像の構成に注目した検索や同一ジャンルの映像の検索等、映像の内容に基づく様々な検索技術の実現が期待されている。そこで、映像や楽曲間の類似度に着眼した手法が提案されている(例えば、特許文献1および特許文献2参照)。



特許文献1に記載の方法では、各動画データに、複数の単純図形との類似率を求めて記録した被検索用単純図形類似率情報が関連づけられている。一方、画像検索時に、検索画像について複数の単純図形との類似率を求めて記録した検索用類似率情報を作成する。被検索用単純図形類似率情報と、検索用類似率情報とを照合し、複数の単純図形ごとの類似率を集計し平均した類似率が、予め設定した規定類似率以上の場合、その動画データを類似動画として検索する。また、特許文献2に記載の方法では、映像データにおける類似映像区間とそれ以外を区別する類似映像区間情報を生成する。このとき、特許文献2に記載の方法では、ショットの画像の特徴量に基づいて類似パターンに分類する。



一方、感性に基づく単語をメタデータとして映像・楽曲に付加し、単語間の関係に基づいて映像・楽曲の類似度を算出する方法もある(非特許文献1および非特許文献2参照)。
【特許文献1】
特開2007-58258号公報
【特許文献2】
特開2007-274233号公報
【非特許文献1】
L. Lu, D. Liu and H. J. Zhang, “Automatic Mood Detection and Tracking of Music Audio Signals,” IEEE Trans. Audio, Speech and Language Proceeding, vol. 14, no. 1, pp. 5-8, 2006.
【非特許文献2】
T. Li and M. Ogihara, “Toward Intelligent Music Information Retrieval, ” IEEE Trans. Multimedia, Vol. 8, No. 3, pp. 564-574, 2006.

産業上の利用分野


本発明は、複数の動画データから、クエリ動画データに類似するシーンを検索する動画検索装置および動画検索プログラムに関する。

特許請求の範囲 【請求項1】
動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索装置であって、
クエリ動画データを含む動画データが記憶された動画データベース記憶装置と、
前記動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、
前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音の音高の推移に基づく類似度と、前記ベース音を除く音に基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、
前記オーディオ信号類似度データに基づいて、前記クエリ動画データのシーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索部と、
を備える動画検索装置。

【請求項2】
前記オーディオ信号類似度検索部によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示部
を更に備える請求項1に記載の動画検索装置。

【請求項3】
前記シーン分割部によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部と、
前記ビデオ信号類似度データに基づいて、前記クエリ動画データのシーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するビデオ信号類似度検索部と、
を更に備える請求項1に記載の動画検索装置。

【請求項4】
前記ビデオ信号類似度検索部によって検索された各シーンについて該類似度に対応する座標を取得して表示するビデオ信号類似度表示部
を更に備える請求項3に記載の動画検索装置。

【請求項5】
前記オーディオ信号類似度算出部は、さらに、シーン間のオーディオ信号の類似度として、リズムに基づく類似度を算出して、前記オーディオ信号類似度データを生成し、
ビデオ信号類似度とオーディオ信号類似度に対する嗜好の割合である嗜好データを取得し、前記ビデオ信号類似度データおよび前記オーディオ信号類似度データに基づいて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から算出されたシーン間の類似度と、前記オーディオ信号のベース音に基づく類似度と、前記ベース音を除く音に基づく類似度と、前記リズムに基づく類似度とに対する重み係数を決定して、各シーンの各類似度にこの重み係数を乗算して統合された類似度に基づいて、前記シーン間の統合された類似度が一定の閾値よりも小さいシーンを検索する検索部と、
前記検索部によって検索された各シーンについて該統合された類似度に対応する座標を取得して表示する表示部
を更に備えることを特徴とする請求項3に記載の動画検索装置。

【請求項6】
動画データのシーンから、クエリ動画データに類似するシーンごとに検索する動画検索プログラムであって、
コンピュータを、
動画データベース記憶装置に記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、
前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音の音高の推移に基づく類似度と、前記ベース音を除く音に基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、
前記オーディオ信号類似度データに基づいて、前記クエリ動画データのシーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索手段
として機能させる動画検索プログラム。

【請求項7】
前記オーディオ信号類似度検索手段によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示手段
として、更に前記コンピュータを機能させる請求項6に記載の動画検索プログラム。

【請求項8】
前記シーン分割手段によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段と、
前記ビデオ信号類似度データに基づいて、前記クエリ動画データのシーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するビデオ信号類似度検索手段
として、更に前記コンピュータを機能させる請求項6に記載の動画検索プログラム。

【請求項9】
前記ビデオ信号類似度検索手段によって検索された各シーンについて該類似度に対応する座標を取得して表示するビデオ信号類似度表示手段
として、更に前記コンピュータを機能させる請求項8に記載の動画検索プログラム。

【請求項10】
前記オーディオ信号類似度算出手段は、さらに、シーン間のオーディオ信号の類似度として、リズムに基づく類似度を算出して、前記オーディオ信号類似度データを生成し、
ビデオ信号類似度とオーディオ信号類似度に対する嗜好の割合である嗜好データを取得し、前記ビデオ信号類似度データおよび前記オーディオ信号類似度データに基づいて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から算出されたシーン間の類似度と、前記オーディオ信号のベース音に基づく類似度と、前記ベース音を除く音に基づく類似度と、前記リズムに基づく類似度とに対する重み係数を決定して、各シーンの各類似度にこの重み係数を乗算して統合された類似度に基づいて、前記シーン間の統合された類似度が一定の閾値よりも小さいシーンを検索する検索手段と、
前記検索手段によって検索された各シーンについて該統合された類似度に対応する座標を取得して表示する表示手段
として、更に前記コンピュータを機能させる請求項8に記載の動画検索プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2010503907thum.jpg
出願権利状態 登録
ライセンスをご希望の方、特許の内容に興味を持たれた方は、下記までご連絡ください


PAGE TOP

close
close
close
close
close
close
close