TOP > 国内特許検索 > カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法 > 明細書

明細書 :カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5181325号 (P5181325)
公開番号 特開2009-044422 (P2009-044422A)
登録日 平成25年1月25日(2013.1.25)
発行日 平成25年4月10日(2013.4.10)
公開日 平成21年2月26日(2009.2.26)
発明の名称または考案の名称 カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法
国際特許分類 H04N   7/32        (2006.01)
FI H04N 7/137 Z
請求項の数または発明の数 15
全頁数 31
出願番号 特願2007-206777 (P2007-206777)
出願日 平成19年8月8日(2007.8.8)
新規性喪失の例外の表示 特許法第30条第1項適用 平成19年2月9日 国立大学法人 電気通信大学主催の「電気通信大学 修士論文発表会」に文書をもって発表
審査請求日 平成22年8月6日(2010.8.6)
特許権者または実用新案権者 【識別番号】504133110
【氏名又は名称】国立大学法人電気通信大学
【識別番号】000201113
【氏名又は名称】船井電機株式会社
発明者または考案者 【氏名】森田 啓義
【氏名】坂井 敦典
【氏名】政木 康生
【氏名】坪田 浩乃
個別代理人の代理人 【識別番号】110000626、【氏名又は名称】特許業務法人 英知国際特許事務所
審査官 【審査官】長谷川 素直
参考文献・文献 特開2004-295923(JP,A)
特開平11-252509(JP,A)
特開平10-210479(JP,A)
特開2007-060392(JP,A)
特開2007-072789(JP,A)
特開2003-319241(JP,A)
特開平07-038842(JP,A)
特開2003-060980(JP,A)
青木真吾(外3名),マクロブロックタイプを用いたMPEG2圧縮動画像のカット点検出,情報処理学会論文誌,日本,社団法人情報処理学会,2005年10月15日,第46巻, No.SIG15(CVIM12),p.51-58
河合吉彦(外2名),放送型スポーツ映像におけるディジタルビデオ効果に着目したリプレイシーン検出の一手法,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2001年 2月 1日, 第J84-D-II巻, 第2号,p.432-435
調査した分野 H04N 7/26-7/68,
H04N 5/91-5/956
特許請求の範囲 【請求項1】
マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別する手段と、を含むことを特徴とするカット部検出システム。
【請求項2】
マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する手段と、を含み、
前記判別条件には、連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定数以上であるという条件が含まれていることを特徴とするカット部検出システム。
【請求項3】
マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する手段と、を含み、
前記判別条件には、連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定範囲内であって、このパターンとなる前記二つのBフレームが、複数のグループオブピクチャ中で所定数以上あるという条件が含まれていることを特徴とするカット部検出システム。
【請求項4】
マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する手段と、を含み、
前記マクロブロックタイプ情報からフレーム毎の順方向予測符号化マクロブロックの数およびフレーム毎の逆方向予測符号化マクロブロックの数を求める手段を備え、
前記判別条件に加える条件として、
順方向予測符号化マクロブロックの数が最頻度で、且つ逆方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数以上であるという条件と、
逆方向予測符号化マクロブロックの数が最頻度で、且つ順方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数以上であるという条件と、
双方向予測符号化マクロブロックの数が最頻度であるという条件と、
の三つ条件の内の何れかを含むことを特徴とするカット部検出システム。
【請求項5】
前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする請求項1乃至4何れか1項記載のカット部検出システムを用いたショット検出システム。
【請求項6】
前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部が、連続する二つの瞬時カット点の間に位置する場合に、これら連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする請求項1乃至4何れか1項記載のカット部検出システムを用いたショット検出システム。
【請求項7】
前記連続する二つのリプレイカット部の内の一方と、この一方のリプレイカット部に連続する瞬時カット点との間に、所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする請求項5又は6記載のショット検出システム。
【請求項8】
前記連続する二つのリプレイカット部の間に所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする請求項5乃至7何れか1項記載のショット検出システム。
【請求項9】
動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、
この動きベクトル情報からフレーム毎の動きベクトル量を求める手段と、
前記抽出されたショットについて、その1ショット分の前記動きベクトル量をグループオブピクチャ数で割った平均の動きベクトル量を求める手段とを備え、
前記平均の動きベクトル量が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする請求項乃至8何れか1項記載のショット検出システム。
【請求項10】
動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、
各フレームのマクロブロック毎に動きベクトルの方向を所定数の方向に量子化する手段と、
前記量子化により分類された動きベクトルの方向について、その分散度をフレーム毎に求める手段と、
前記抽出されたショットについて、その1ショット分の前記分散度をグループオブピクチャ数で割った平均の分散度を求める手段とを備え、
前記分散度が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする請求項乃至9何れか1項記載のショット検出システム。
【請求項11】
動画圧縮データから、Iフレーム毎に輝度成分Y、色差成分Cb、色差成分Crを抽出する手段と、
各Iフレームを平行な複数のラインに分割し、そのライン毎に、輝度成分Y、色差成分Cb、色差成分Cr、色差成分の比r=Cb/Crが、それぞれ所定範囲内であるという色条件を満たすマクロブロックの数を求める手段と、
Iフレーム毎に、前記色条件を満たすマクロブロック数が所定範囲以内であるラインの数の平均値を求める手段とを備え、
前記平均値が所定範囲内であるIフレームを含むショットを、特定のショットとして判別することを特徴とする請求項乃至10何れか1項記載のショット検出システム。
【請求項12】
Iフレーム毎に、前記ラインの変化に対する前記マクロブロック数の変化の度合を求め、その度合の最大値が所定範囲内であるIフレームを含むショットを、特定のショットとして判別することを特徴とする請求項11記載のショット検出システム。
【請求項13】
前記ショット検出システムにより検出された各ショットに対し、その種類に応じたショット記号を付与することでショット記号列を作成する手段と、
検出対象のシーンに対応するように複数の前記ショット記号を配列してなるモデルパターン記号列を記憶する手段と、
前記ショット記号列中から、前記モデルパターン記憶手段のモデルパターン記号列に対応する記号列を検出する検出手段とを備え、
前記検出手段により検出された記号列に対応する前記動画像データの連続ショットを、特定のシーンとして認識するようにしたことを特徴とする請求項5乃至12何れか1項記載のショット検出システムを用いたシーン検出システム。
【請求項14】
前記検出手段は、前記ショット記号列に対し前記モデルパターン記号列を照合させて、前記ショット記号列中から前記モデルパターン記号列に略合致する記号列を検出するパターンマッチング処理を行うことを特徴とする請求項13記載のシーン検出システム。
【請求項15】
コンピュータが、マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出するステップと、
コンピュータが、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求めるステップと、
コンピュータが、Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別するステップと、
を含むことを特徴とするカット部検出方法。
発明の詳細な説明 【技術分野】
【0001】
本発明は、動画像データから、ショットの分割位置であるカット部や、ショットの種類、複数の連続ショットからなるシーン等を検出するカット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法に関するものである。
【背景技術】
【0002】
近年、インターネットのブロードバンド化に伴い映像配信が行われ、衛星放送やケーブルテレビによるチャンネル数の増加により、ユーザが見ることのできる映像が増加している。また、ストレージ技術の急速な発展にともない、テラバイトを超える大容量のハードディスクを搭載したHDDレコーダも登場してきており、膨大な番組(コンテンツ)をPCやレコーダのハードディスクに保存することが一般的になってきており、個人で映像データを利用することが頻繁に行われている。
そして、前記のように映像データが多くなるほど、映像データ内の見たい場面を素早く探し出すことが困難となる。このようなことから、膨大なビデオデータから、必要なシーンを効率良く、素早くアクセスする技術が重要となってきている。
【0003】
そこで、例えば、特許文献1に記載された発明では、画面内に占める芝の割合や、動きベクトル、歓声の特徴等から、特定のショットまたはシーンの一部を判定するようにしている。
また、特許文献2に記載された発明では、双方向予測符号化フレームの順方向予測符号化ブロック数、逆方向予測符号化ブロック数の大小関係を調べることにより、複数のショットの分割位置であるカット位置を検出するようにしている。
【0004】
しかしながら、先の映像の繰り返しを映しているリプレイショットについては、その分割位置(カット部)やその範囲を検出するのが困難であった。
また、リプレイショット以外のショットに関しても、そのショットの種類を明確に分類したり、複数の連続ショットからなるシーンを、ストーリー上意味のある連続した場面として抽出するのは困難であった。

【特許文献1】特開2005-252860号公報
【特許文献2】特開平07-284071号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明は上記従来事情に鑑みてなされたものであり、その課題とする処は、リプレイショットの先頭部分又は最後部分であるリプレイカット部を検出可能なカット部検出システム、リプレイショットおよびその他の特定のショットを精度良く判別することが可能なカット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法を提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために本発明に係る技術的手段は、マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出する手段と、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別する手段と、を含むことを特徴とするカット部検出システムである。
【0007】
更なる技術的手段では、前記判別条件には、連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定数以上であるという条件が含まれていることを特徴とする。
【0008】
更なる技術的手段では、前記判別条件には、連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定範囲内であって、このパターンとなる前記二つのBフレームが、複数のグループオブピクチャ中で所定数以上あるという条件が含まれていることを特徴とする。
【0009】
更なる技術的手段では、上記マクロブロックタイプ情報からフレーム毎の順方向予測符号化マクロブロックの数およびフレーム毎の逆方向予測符号化マクロブロックの数を求める手段を備え、前記判別条件に加える条件として、順方向予測符号化マクロブロックの数が最頻度で、且つ逆方向予測符号化マクロブロックの数とイントラ符号化マクロブロックの数との合計が所定数以上であるという条件と、逆方向予測符号化マクロブロックの数が最頻度で、且つ順方向予測符号化マクロブロックの数とイントラ符号化マクロブロックの数との合計が所定数以上であるという条件と、イントラ符号化マクロブロックの数が最頻度であるという条件と、の三つ条件の内の何れかを含むことを特徴とする。
【0010】
更なる技術的手段は、前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする上記カット部検出システムを用いたショット検出システムである。
【0011】
更なる技術的手段では、前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部が、連続する二つの瞬時カット点の間に位置する場合に、これら連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする。
【0012】
更なる技術的手段では、前記連続する二つのリプレイカット部の内の一方と、この一方のリプレイカット部に連続する瞬時カット点との間に、所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする。
【0013】
更なる技術的手段では、前記連続する二つのリプレイカット部の間に所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする。
【0014】
更なる技術的手段では、動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、この動きベクトル情報からフレーム毎の動きベクトル量を求める手段と、前記抽出されたショットについて、その1ショット分の前記動きベクトル量をグループオブピクチャ数で割った平均の動きベクトル量を求める手段とを備え、前記平均の動きベクトル量が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする。
【0015】
更なる技術的手段では、動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、各フレームのマクロブロック毎に動きベクトルの方向を所定数の方向に量子化する手段と、前記量子化により分類された動きベクトルの方向について、その分散度をフレーム毎に求める手段と、前記抽出されたショットについて、その1ショット分の前記分散度をグループオブピクチャ数で割った平均の分散度を求める手段とを備え、前記分散度が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする。
【0016】
更なる技術的手段では、動画圧縮データから、Iフレーム毎に輝度成分Y、色差成分Cb、色差成分Crを抽出する手段と、各Iフレームを平行な複数のラインに分割し、そのライン毎に、輝度成分Y、色差成分Cb、色差成分Cr、色差成分の比r=Cb/Crが、それぞれ所定範囲内であるという色条件を満たすマクロブロックの数を求める手段と、Iフレーム毎に、前記色条件を満たすマクロブロック数が所定範囲以内であるラインの数の平均値を求める手段とを備え、前記平均値が所定範囲内であるIフレームを含むショットを、特定のショットとして判別することを特徴とする。
【0017】
更なる技術的手段では、Iフレーム毎に、前記ラインの変化に対する前記マクロブロック数の変化の度合を求め、その度合の最大値が所定範囲内であるIフレームを含むショットを、特定のショットとして判別することを特徴とする。
【0018】
更なる技術的手段は、前記ショット検出システムにより検出された各ショットに対し、その種類に応じたショット記号を付与することでショット記号列を作成する手段と、検出対象のシーンに対応するように複数の前記ショット記号を配列してなるモデルパターン記号列を記憶する手段と、前記ショット記号列中から、前記モデルパターン記憶手段のモデルパターン記号列に対応する記号列を検出する検出手段とを備え、前記検出手段により検出された記号列に対応する前記動画像データの連続ショットを、特定のシーンとして認識するようにしたことを特徴とする上記ショット検出システムを用いたシーン検出システムである。
【0019】
更なる技術的手段は、前記検出手段は、前記ショット記号列に対し前記モデルパターン記号列を照合させて、前記ショット記号列中から前記モデルパターン記号列に略合致する記号列を検出するパターンマッチング処理を行うことを特徴とする。
【0020】
更なる技術的手段では、コンピュータが、マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出するステップと、コンピュータが、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求めるステップと、コンピュータが、Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別するステップと、を含むことを特徴とするカット部検出方法である。
【発明の効果】
【0021】
本発明は、以上説明したように構成されているので、以下に記載されるような作用効果を奏する。
動画圧縮データからマクロブロックタイプ情報が抽出され、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数が求められる。
イントラ符号化マクロブロックは、リプレイショットの先頭側または最後側のBフレームにおいて比較的多くなる傾向があるため、Bフレームに含まれるイントラ符号化マクロブロックの数が所定範囲内であることを判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別することができ、更には、連続する二つのリプレイカット部の間をリプレイショットとして判別することも可能である。
【発明を実施するための最良の形態】
【0022】
以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本発明の一例を示すブロック図であり、本発明の特徴を明確にするために、一般的なMPEG復号器の構成を同ブロック図に併せて記載している。
【0023】
図1に示すように、DVDやハードディスク等の記録媒体に記憶された動画圧縮データは、バッファ1を経由して復号器2へ入力される。その一方で、本発明に係わるカット部検出システム及びショット検出システム並びにシーン検出システム3は、復号前の同動画圧縮データからMBT情報(マクロブロックタイプ情報)を抽出する。
これらの構成は、例えば、コンピュータやDVDレコーダ等の装置、および該装置を機能させるためのプログラムや電子回路等として実現される。
【0024】
復号器2は、可変長復号化、逆量子化、逆離散コサイン変換(IDCT)等の周知の復号処理により動画圧縮データを復号化する装置であり、この復号器2によって復号化された動画像はディスプレイ等の表示装置に表示される。
【0025】
本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム3は、動画像圧縮データから直接的にマクロブロックタイプ情報(以降、MBT情報とも称する)を抽出し、そのMBT情報からマクロブロックタイプ記号列(以降、MBT記号列とも称する)を作成し、このMBT記号列を用いて、瞬時カット点やリプレイカット部等のカット部を検出する。
そして、カット部検出システム及びショット検出システム並びにシーン検出システム3は、前記カット部を区切り位置とした動画像データを、リプレイショットを含む複数のショットに分割する。
【0026】
次に、このカット部検出システム及びショット検出システム並びにシーン検出システム3は、動きベクトルや、輝度成分Y、色差成分Cb、色差成分Cr、色差成分の比r=Cb/Cr等の特徴量に基づき、前記ショットを複数の分類パターンに識別し、各ショットに対し種類毎に異なるショット記号を付与し、ショット順に並ぶショット記号列を作成する。
更に、カット部検出システム及びショット検出システム並びにシーン検出システム3は、ショット記号列から照合処理(パターンマッチング処理)により特定のパターンを探索することでシーンを検出する。
【0027】
前記動画圧縮データは、本実施の形態の一例によれば、サッカー試合動画像データを圧縮符号化してなるMPEG2データを用いている。
MPEG2形式では,ビデオデータを圧縮する際に以下の3つフレームタイプを用いている。
・イントラフレーム(Intra-coded frame,I フレーム)
他のフレームの情報を使用せず、フレーム内圧縮のみ行うフレーム。
・前方向予測符号化フレーム(Predictive-coded frame,Pフレーム)
フレーム内圧縮のほかに、過去のIフレーム及びPフレームを参照フレームとして、時間軸上で順方向動き予測符号化を行うフレーム。
・双方向予測符号化フレーム(Bidirectionally predictive-coded frame,Bフレーム)
フレーム内圧縮のほかに、過去と未来のIフレーム及びPフレームを参照フレームとして,時間軸上で双方向予測符号化を行うフレーム。
MPEG2形式で圧縮されたビデオデータはグループオブピクチャ(以後GOP(Group Of Picture)と称する) 単位でまとめられており、通常、1 つのGOPは0.5 秒分となる15 フレーム分のデータで構成される。また,GOP 内のフレームタイプの構成はビデオデータごとに決まっており、本実施の形態では、IBBPBBPBBPBBPBB という通常のパターン、すなわち連続する2つのBフレームを周期的に含むパターンを用いている。
【0028】
GOPには、Closed GOPという方式と、Open GOPという方式が存在する。
Closed GOP とは、一つ前のGOP を参照しない方式であり、一つのGOP 内だけで符号化を行う。このため、GOPの最初の2 つのB フレームは、すべてのマクロブロックが必ず逆方向予測となる。一方,Open GOP とは、一つ前のGOP を参照する方式である。GOP の始めの2 つのB フレームも、順方向予測が可能となるため、Closed GOP よりもOpen GOP の方が、より符号化による圧縮率が高くなる。
また、Open GOP では、映像が切り替わる部分などにおいて、GOP 内のフレーム数が少なくなることがある。例えば、GOP を構成するフレーム数が、3フレーム,6フレーム,9フレーム,12 フレームといった3の倍数の数に減少する。この特徴を利用し、カット点検出の精度を上げることができる。
本実施の形態では、前記のような特徴を利用することで、比較的カット部の検出が行いやすく、また、圧縮効率もよいOpen GOP 方式で符号化されたMPEGデータを用いることとする。
【0029】
次に、MPEG2における符号化方式について説明する。
通常MPEG圧縮においては1枚の画像フレームを8×8ブロックに細分化した上で、各ブロック毎に離散コサイン変換を行う。輝度4ブロックと、色差(Cb, Cr)の2ブロックをマクロブロックという。動き補償のブロックサイズは16 pixel×16 pixelであるのに対し,DCT( 離散コサイン変換)のサイズは8pixel×8pixelであるためにそれらを結合する仕組みがマクロブロックである。このマクロブロックが参照画像への予測を行う単位となる。また、MPEGでは、符号化を行う際に前後のI,Pフレームに対して参照を行うことで圧縮効果を向上させる工夫が施されている。このため、マクロブロック単位での符号化には、Intra符号化,順方向予測符号化,逆方向予測符号化,双方向予測符号化の4種類の方法があり、各符号化方法は以下の特徴を持つ。
【0030】
・Intra 符号化
他の画像を参照しないで画素値を復元する符号化方法。
・順方向予測符号化
過去の画像に対して参照を行うことで画素値を復元する符号化方法。
・逆方向予測符号化
未来の画像に対して参照を行うことで画素値を復元する符号化方法
・双方向予測符号化
順方向と逆方向の二つの予測を対応画素間で平均することで画素値を復元する符号化方法。
【0031】
各マクロブロックは、前記4つの方式で符号化される。MPEG2には3種類のフレーム(I,P,B)がある。
I フレームはIntra 符号化のみを選ぶことができる。
PフレームはIntra符号化に加え、直前のIフレームもしくはPフレームを参照フレームとする順方向予測符号化を選ぶことができる。
Bフレームは、それらに加え、直後のI,P フレームを参照フレームとする逆方向予測符号化と、直前、直後のI,P フレームを参照フレームとする双方向予測符号化を選ぶことができる。
【0032】
各フレームはマクロブロックと呼ばれる単位に分割されており、個々のマクロブロックごとにマクロブロックタイプと呼ばれる属性が割り当てられている。各フレーム毎に選ぶことのできる符号化方法を使ってマクロブロックの符号化が行われる。
前記4つの符号化方式のうちどの方法を選ぶかは符号化の段階においてマクロブロック単位で決められ、本実施の形態が扱う動画圧縮データであるMPEG符号化データの中にマクロブロックタイプとして埋め込まれている。
【0033】
次にMPEG2のフォーマットについて説明する。
動画像には422と420というコンポーネントディジタル化された形式がある。
422fomatでは、輝度画像が720pixelx480pixelの大きさの場合は、2つの色差画像は横方向にサブサンプル(例えば間引き)された各360pixel x 480 pixelの縦長な形をしている。
一方,420fomat というのは,図2に示すように色差をさらに縦方向にもサブサンプルした画像形式をいう。色差画像の大きさは縦横とも輝度画像の1/2 になる。これがもっとも一般的に動画像符号化で使われる形式である。420の一例では、輝度画像(Y)と縦横比の一致した2 つの色差画像(Cb,Cr)がセットになって扱われる。また、各フレームは45 × 30 のマクロブロックから構成されている。
本実施の形態で用いるMPEG データは、この420 でコンポーネントディジタル
化された形式の動画像を用いる。
【0034】
次に、本実施の形態においてMPEG2データから抽出され、カット部の検出、及びショットの判別に用いる特徴量について説明する。
本実施の形態では、MPEG2データから、以下の3つの情報を抽出して利用する。
・マクロブロックタイプ
・動きベクトル
・マクロブロックの輝度,色差(DC 成分)
【0035】
マクロブロックタイプとは、各マクロブロックが前後のどのフレームを参照しているかを表した情報である。上記したように、マクロブロック単位での符号化方式には、4種類の方式があり、この4つの方式が以下の4つのマクロブロックタイプに対応する。
・Intra符号化マクロブロックタイプ
・順方向予測符号化マクロブロックタイプ
・逆方向予測符号化マクロブロックタイプ
・双方向予測符号化マクロブロックタイプ
これら4種類のマクロブロックタイプは、マクロブロック毎に対応するコードとしてMPEG動画圧縮データのマクロブロック層に書き込まれている。
【0036】
Bフレームでは、4つのマクロブロックタイプを選択することができ、参照する画像によって、1フレーム内のそれぞれのマクロブロックタイプの数に大きな偏りが見られる。このような特徴を利用し、映像の切り替わる点を検出することができる。
また、カラー画像はRGBの3つの値または3つの画像で表される。これを線形変換して、輝度(Y)と2つの色差(Cb,Cr)で表わすと、色差画像の空間分解能を減らすことができる。輝度とは明るさを表し、色差とは色の度合いを表すものである。
【0037】
MPEGでは、符号化を行う方法として、冗長な情報を削減するために、離散コサイン変換(DCT)が行われる。DCTは画像信号を少ない低域係数に集中させる働きを持ち、画像の空間的方向の情報量削減に使われており、固定の変換係数の直交変換のなかでは画像符号化に最も有効な変換とされている。
DCT後の直流成分をDC成分と言い、8 pixel × 8 pixel ブロックの平均値を表しているため、特徴量に用いる色情報として、輝度・色差のDC 成分を用いる。マクロブロックでの輝度・色差成分を図3に示す。図3のように、420 フォーマットでは、一つのマクロブロックに4つの輝度成分とそれぞれ1つのCb,Cr の色差成分が含まれる。この輝度・色差のDC 成分を用いることで、グラウンドエリアの色情報を抽出し、ショットの判別に利用する。また、ショット判別に用いる特徴量としては、一つのマクロブロックにおいて、Cb,Cr の色差成分と、4つの輝度ブロックのうち左上の1つの輝度成分のみを利用する。
【0038】
次に、本実施の形態で用いる動きベクトルについて説明する。
動きベクトルとは、現在の画像における予測画像の差分を求めるときの、現画像のマクロブロック位置と予測画像の参照を行う位置とのピクセル単位でのずれ量を表す。
この動きベクトルは、MPEG2の場合16pixel × 16pixel 単位のマクロブロックで発生し、現マクロブロックから参照する位置までの距離をx 成分とy 成分で表す。このとき、x 成分は右方向が正,y 成分は下方向が正となる。
また,過去の画像との差分を表したものを順方向動きベクトルと呼び、未来の画像との差分を表したものを逆方向動きベクトルと呼ぶ。
I フレームでは、フレーム間予測を行っていないので、動きベクトルが発生しない。P フレームでは、過去のIまたはPフレームとフレーム間予測を行うため、順方向動きベクトルのみ発生する。B フレームでは、過去と未来、両方のI,P フレームを参照できるため、順方向動きベクトル、逆方向動きベクトルの2つの動きベクトルが発生する。動きベクトルは、フレーム間予測を行うため、映像における動きの特徴や、カメラの動きに対応した映像の流れの特徴を表している。
本実施の形態では、この動きベクトルをショット分類の判別を行うための特徴量として利用する。また、動きの特徴を求めるために十分な量と考えられるP フレームとB フレームにおける順方向動きベクトルのみを特徴量として用いる。
【0039】
図4は、本実施の形態が、動画圧縮データのどのフレームからどのような特徴量を抽出するのかを示している。
すなわち、I フレームからは、マクロブロックの輝度・色差のDC成分を取り出す。そして、P,Bフレームからは、順方向動きベクトルを取り出す。これら輝度・色差と動きベクトル等の情報は、ショット分類の判別に利用する。
また、Bフレームからは、マクロブロックタイプを取り出す。このマクロブロックタイプは、カット点およびリプレイカット部の検出に用いる。
【0040】
ここで、サッカー試合映像を一例にして、シーン、ショット、カット点、リプレイカット部等の概念を、詳細に説明する。
シーンとは、ストーリー上意味のある連続した場面の動画像であり、例えば、選手がシュートをしたシーン(ゴールはしていない)や、選手がシュートしたボールがゴールしたゴールシーン等である。このシーンは、図5に示すように、時系列順に複数連続して、例えばサッカー試合映像等の一つの動画像を構成する。
【0041】
そして、各シーンは、図5に示すように、連続する複数のショットから構成される。ショットとは、通常1台のカメラが捉えた時間的かつ空間的に連続した場面を意味し、各ショットは連続する複数のフレームからなる。
本実施の形態におけるショットには、前後のカット点により区分されたショットと、前後のリプレイカット部により区分されたリプレイショットとを含む。
【0042】
本実施の形態では、ショットを以下のように分類し定義している。なお、以下の左側の括弧内の数字は、後述するショット検出で用いるショット記号を示している。
(1)センターロングショット(Center Long Shot)
グラウンド全体を映しているショットであって、最後の3つのグループオブピクチャ(以後GOPとも称する)がゴール付近の画面でないショット。
(2)ゴールロングショット(Goal Long Shot)
グラウンド全体を映しているショットであって、最後の3GOPがゴール付近の画面であるショット。
(3)クローズアップショット(Close-up Shot)
選手のアップを映しているショット。
(4)アウトフィールドショット(Out-field Shot)
観客などフィールド外を映しているショット。
(5)リプレイショット(Replay Shot)
先の映像の繰り返し(リプレイ)を映しているショット
【0043】
上記5つのショット中、(1)~(4)の各ショットは、その前後のカット点の間に位置する動画像の範囲である。カット点とは、カメラの切り替わりにより生じた映像の切り替わり点のことである。
一般的に、カット点には、映像が急激に変化する瞬時カット点(ハードカット点とも呼称される)や、ディゾルブカット点、ワイプカット点、その他の特殊なカット点等があるが、本実施の形態で扱うカット点は瞬時カット点である。
また、上記(5)のリプレイショットの最前部と最後部に位置するリプレイカット部は、本実施の形態では前記カット点と区別し、後に詳述する。
【0044】
各ショットを構成している複数のフレームは、図6に示す再生順のデータであるが、符号化されるときに順番が入れ替えられることで、同図6に示すビットストリーム順のデータとなる。
更に、このビットストリーム順のデータは、復号化されるときに順番が入れ替えられることで、元の順番(前記再生順と同じ順番)に戻され、同図6に示す出力順のデータとなる。
本実施の形態では、前記再生順または出力順のことを、フレーム順と称する。
【0045】
次に、上記リプレイショット及びリプレイカット部の概念について説明する。
スポーツ映像でのリプレイとは,シュートや,ゴール,ファウルなど視聴者が特に興味のあるシーンがあったときに、数秒後に再び同じシーンを、様々な角度のカメラからの映像がスローモーションなどの効果が加えられ、再生される場面のことを言う(図7参照)。
リプレイに加えられる特殊な編集効果に着目すると、スポーツ映像では、リプレイ部分の始めと終わりに特殊なショット切り替え操作が加えられる場合が多い。例えば,図8に示すような特殊な画像が入る場合や、ワイプカットなどの特殊なショット切り換え操作が入ることもある。このようなリプレイ部分の始めと終わりでの特殊な切り替え操作をDVE (Digital Video Effect) と呼ぶこととする。
本実施の形態で用いるサッカー試合動画像には、図8に示すように、サッカー試合映像に対し、該サッカー試合映像以外の映像(例えば、画面の略全体を覆うボールや旗等の画像)を重ね合わせてなるオーバーレイ画像を、前記DVEの一例として含んでいる。
【0046】
本実施の形態では、DVE が入るリプレイ部分の始めと終わりの部分をリプレイカット部と称し、連続する二つのリプレイカット部で挟まれる映像区間をリプレイショットと称する。なお、リプレイショットの映像区間では、映像の切り替わり点として、ディゾルブカット点が用いられる場合があるが、図9に示すように、このディゾルブカット点をカット点とせず、リプレイカット部間のリプレイショットを一つのショットとして判断する。
【0047】
次に、本実施の形態による瞬時カット点(リプレイカット部を含まない)の検出について詳細に説明する。
瞬時カット点が発生する位置は、一対の連続したBフレーム(Bi,Bi+1)に注目すると、以下の(i),(ii),(iii),(iv),(v)の場合に分類される。
(i) Biの直前にカット点が存在する場合
(ii) BiとBi+1の間にカット点が存在する場合
(iii) Bi+1の直後にカット点が存在する場合
(iv) Biのフレーム上にカット点が存在する場合
(v) Bi+1のフレーム上にカット点が存在する場合
以下に、それぞれの場合が生じたとき,Bフレームの符号化にどのような影響があるのかについて説明する。
なお、以下の(i)~(v)の場合の説明では、Biの直前がIフレーム、Bi+1の直後がPフレームの場合を例にして説明しているが、Biの直前のフレームとBi+1の直後のフレームの組み合わせとしては、(I,P)(P,P)(P,I)のいずれの場合も、数が多くなるマクロブロックタイプは同じである。
【0048】
(i)の場合には、図10(a)に示すように、Bi,Bi+1は直前のIもしくはP(図ではIを例示)を参照しても類似した値を得ることができないため、類似した直後のIもしくはP(図ではPを例示)に対して参照を行う。そのためBi,Bi+1共に逆方向予測を行うマクロブロックの数が多くなる。
【0049】
(ii)の場合には、図10(b)に示すように、画像の類似性からBiは直前のIもしくはP(図ではIを例示)に対しての参照を行い、Bi+1は直後のIもしくはP(図ではPを例示)に対して参照を行う。そのためBiは直前のIもしくはP(図ではIを例示)に対しての順方向予測符号化を行ったマクロブロックの数が多く、Bi+1 は直後のIもしくはP(図ではPを例示)に対しての逆方向予測符号化を行ったマクロブロックの数が多くなる。
【0050】
(iii)の場合には、図10(c)に示すように、画像の類似性からBi,Bi+1共に直前のIもしくはP(図ではIを例示)に対して参照を行う。そのためBi,Bi+1 ともに、直前のIもしくはP(図ではIを例示)に対しての順方向予測化を行ったマクロブロックの数が多くなる。
【0051】
(iv)の場合には、図11(d)に示すように、イントラ符号化されるマクロブロックが発生するという特徴がある。これは、1枚のフレームが縦方向に1列おきのピクセルで2枚のフィールドで構成されるフィールド構造の場合に顕著に生じる。また、Bi+1 では、Pと画像が類似していることにより、逆方向予測マクロブロックが多くなる。
【0052】
(v)の場合には、(iv)のときと同様に、Bi+1フレーム上に、図11(e)に示すように、イントラ符号化されるマクロブロックが発生するという特徴がある。また、Biでは、Iと画像が類似していることにより、順方向予測マクロブロックが多くなる。
【0053】
以上の傾向はフレーム毎のMBT情報に反映されており、このことは、本願発明者が、一般的な市販のMPEG2エンコーダにより符号化された動画圧縮データを用いて、実験的に確認している。
以上のことに基づき、本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム3では、フレーム毎のMBT情報から特定のマクロブロックタイプが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のMBT記号を付与するとともに、このMBT記号をフレーム順に対応するように並べることで、MBT記号列を作成し、このMBT記号列中におけるMBT記号の配列的特徴から動画像のカット点を判別している。
【0054】
より具体的に説明すれば、先ず、各フレームのMBT情報から、イントラ符号化マクロブロック(以降、mbIntraとも称する)の数、順方向予測符号化マクロブロック(以降、mbForwardとも称する)の数、逆方向予測符号化マクロブロック(以降、mbBackとも称する)の数、双方向予測符号化マクロブロック(以降、mbInterとも称する)の数、その他の符号化マクロブロック(以降、mbOtherとも称する)の数を、それぞれ求める。
【0055】
次に、図12の表に示すように、各条件(表中の右列内)を満たすBフレームに対し、対応するマクロブロックタイプ記号0,1,2,3,4,5,6,7,8の何れかが付与される。
なお、図12の表中では、前記マクロブロックタイプ記号の項目名を、Frame Typeと表現している。
【0056】
すなわち、図12の表中においてマクロブロックタイプ記号が「0」となる場合を一例にして、詳細に説明すれば、フレーム毎のMBT情報の頻度的特徴として、Bフレームであって、順方向予測符号化マクロブロック(mbForward)の頻度が最大であり、且つ、逆方向予測符号化マクロブロックと双方向予測符号化マクロブロックの数の合計(mbBack+mbInter)が所定の閾値t(図示例によれば100)よりも小さい場合には、その頻度的特徴を、予め設定されたマクロブロックタイプ記号である数字の「0」という記号により表す。
すなわち、前記条件を満たすフレームに対し、マクロブロックタイプ記号である「0」という記号が付与される。
その他、マクロブロックタイプ記号が1,2,3,4,5,6,7,8の各々となる場合についても、同様に処理される。
【0057】
また、マクロブロックタイプ記号が「7」となる場合の条件は、マクロブロックタイプ記号が、2、5、6の内の何れかとなる条件が満たされ、且つ、イントラ符号化マクロブロックの数が所定数(例えば100)以上であることを満たす。
より詳細に説明すれば、順方向予測符号化マクロブロックの数が最頻度で、且つ逆方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数(図示例によれば350)以上であるという条件と、逆方向予測符号化マクロブロックの数が最頻度で、且つ順方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数(図示例によれば350)以上であるという条件と、双方向予測符号化マクロブロックの数が最頻度という条件との三つ条件の内の何れかが満たされ、且つ、イントラ符号化マクロブロックの数が所定の閾値(例えば100)以上であることを満たす。
【0058】
同様に、マクロブロックタイプ記号が「8」となる場合の条件は、マクロブロックタイプ記号が、2、5、6の内の何れかとなる条件が満たされ、且つ、イントラ符号化マクロブロックの数が所定範囲内(図示例によれば20~100の範囲内)であることを満たす。
【0059】
なお、図12の表中、マクロブロックタイプ記号が「2」、「5」、「7」となる場合の条件について、閾値の上限が記載されていないが、この上限値は、1フレーム中におけるマクロブロックの最大数(例えば1350)としてもよいし、他の適宜な値を設定するようにしてもよい。
また、表中の閾値(20,100,350等)は、実験的に予め設定されたものであり、動画の種類やその他の条件に応じて適宜変更してもよい。
【0060】
そして、上記のようにしてフレーム毎に付与されたマクロブロックタイプ記号は、フレーム順に並べられることで、一連のMBT記号列(例えば「023567118314・・・」等)を構成する。
したがって、このMBT記号列において、各MBT記号は、対応するフレームにおける特定のマクロブロックの頻度的特徴を表していることになる。
【0061】
なお、上記態様によれば、Bフレームのみに上記MBT記号を付与することを説明しているが、Bフレームに対応するMBT記号のみからMBT記号列を作成する構成としてもよいし、他例としては、Bフレーム以外のフレーム(例えばIフレームやPフレーム)にも適当なMBT記号を付与し、Bフレームに対応するMBT記号と、Bフレーム以外の前記フレームに対応するMBT記号と、の双方のMBT記号の配列によりMBT記号列を作成するようにしてもよい。
【0062】
b 次に、カット部検出システム及びショット検出システム並びにシーン検出システム3は、以下に示すように、上記MBT記号列中におけるMBT記号の配列的特徴に応じて、瞬時カット点の位置を判断する。
【0063】
すなわち、図13に示すように、上記一連のMBT記号列について、連続するペアのBフレームに対応する二つのMBT記号b1,b2に注目し、その配列パターンに応じて、以下のように、二つのMBT記号b1,b2の直前、直後、間の何れかに瞬時カット点があると判定する。
【0064】
以下、左二桁の数字は、前記二つのMBT記号b1,b2の配列パターンを示し、これら数字の右側には、前記配列パターンに応じて判定される瞬時カット点の位置を示す。
00: 末尾の0の後にカット点があると判定する。
0*: 0の直後にカット点があると判定する。なお、*は0以外の数とする。
*3: 3の直前にカット点があると判定する。なお、*は3以外の数とする。
33: 先頭の3の直前にカット点があると判定する。
11: 末尾の1の直後にカット点があると判定する。
14: 1と4の間にカット点があると判定する。
44: 先頭の4の直前にカット点があると判定する。
17: 1と7の間にカット点があると判定する。
18: 8の直後にカット点があると判定する。
84: 8の直前にカット点があると判定する。
74: 7と4の間にカット点があると判定する。
【0065】
次に、リプレイカット部の検出について説明する。
リプレイショットの始めと終わりに入るDVE には、Bフレームにおいてイントラ符号化されるマクロブロックの割合が多くなるという傾向がある(図14参照)。これは、挿入される画像や、映像の切り替わりが激しく変化するためだと考えられる。本実施の形態では、このことを判別条件として利用することで、リプレイカット部を検出するようにしている。
【0066】
具体的に説明すれば、以下の二つの判別条件を用いる。
(1)連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定数以上(図12の一例によれば100以上)であるという条件。
(2)連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定範囲内(図12の一例によれば20以上100未満)であって、このパターンとなる前記二つのBフレームが、複数(例えば2つ)のグループオブピクチャ中で所定数以上(例えば2~3以上、好ましくは3以上)あるという条件。
そして、以上の(1)と(2)の内の何れか一方の判別条件を満たす場合に、前記Bフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する。なお、前記Bフレームをリプレイカット部とすることも可能である。
【0067】
リプレイカット部の判別について、より詳細にすれば、上記MBT記号列中に二つのMBT記号b1,b2の内の何れかが「7」であるという条件を満たすパターンが存在した場合には、このパターンが存在するグループオブピクチャを、リプレイカット部とする。
また、上記MBT記号列中に、二つのMBT記号b1,b2の内の何れかが「8」であるペアが連続する二つのグループオブピクチャ中に3ペア以上あるという条件が満たされる場合も、このパターンが存在するグループオブピクチャを、リプレイカット部と判別する。
【0068】
次に、リプレイショットの検出について説明する。
本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム3では、上記(1)又は(2)の条件により判別したリプレイカット部の間をリプレイショットとして判別する。
特にその判別精度を向上するために、より好ましくは、図15に示すように、連続する2つの瞬時カット点の間に2つのリプレイカット部のパターン(上記(1)又は(2)の条件を満たすパターン)が存在し、さらに、前記瞬時カット点とこの瞬時カット点に連続するリプレイカット点との間が2GOP 以上あり、且つ、前記2つのリプレイカット点間においても6GOP以上あるとき、これら2つのリプレイカット部の間の区間をリプレイショットとする。
この構成によれば、特に動きの激しいシーンにおいて、イントラ符号化されるマクロブロックが多い場合に、このようなフレームをリプレイショットと誤判断するのを防ぐことができる。
【0069】
よって、上記構成によれば、連続する2つの瞬時カット点間に1つだけリプレイカット点パターンが存在する場合や、瞬時カット点とリプレイカット点の間が2GOP以上ない場合、連続するリプレイカット点間が6GOP以上ない場合では、リプレイショットとして判断されない。
【0070】
次に、ショットの分類について説明する。
サッカー中継での映像のそれぞれのショットを、基本的に図16のような(1)Center Long Shot(センターロングショット),(2)Goal Long Shot(ゴールロングショット)、(3)Close-up Shot(クローズアップショット),(4)Out-field Shot(アウトフィールドショット),(5)Replay Shot(リプレイショット)の5つのパターンに分類する。
そして、動画像データから抽出された各ショットを、前記分類に応じて異なるショット記号により表す。このショット記号は、本実施の形態の一例によれば、前記各ショットの先頭に付された番号(1~5の何れか)としている。
【0071】
本実施の形態では、ショット分類の判別に用いる特徴量の一つとして、MPEGデータ内の動きベクトルを用いる。動きベクトルでは、前後の参照するフレームのマクロブロック位置を表すため、各ショットでは、映像のカメラワークや選手の動きの速さに応じて、動きベクトルの大きさも変化する。動きベクトルは、P,B フレームから動きベクトルを取り出し、各GOPにおいて、その動きベクトルの総量Mを数1(式(4.1))から求める。
【0072】
【数1】
JP0005181325B2_000002t.gif

【0073】
本願発明者の実験によれば、(1)Center Long Shotでは、選手が大きく映っていないために動きベクトルがカメラワークに大きく影響される.カメラワークが左右に動くときと止まっているときがあるため、それに伴い、数1(式(4.1))で表される動きベクトル量の変動も大きくなり、1ショットでの平均動きベクトル量は小さくなる傾向にある。
また、(3)Close-up shot では、選手が大きく映っているため、動きベクトルが選手の動きに大きく影響される.大きく映されている選手が常に動いているために、前記動きベクトル量の変動も小さくなり、1ショットでの平均動きベクトル量は大きくなる傾向にある。
【0074】
(1)Center Long Shot と(3)Close-up shot の1 ショットにおけるGOP 単位での動きベクトル量の推移を図17に示す。
図17のように動きベクトル量の推移に明確な違いがあることがわかる。1ショットの動きベクトル量をGOP 数で割った平均の動きベクトル量バーM(バーMはMの平均を表すものとする)において、(1)Center Long Shot ではバーMは比較的小さい値となり、(3)Close-upshot では、バーM はLong Shot と比べて大きい値となる。このバーMをLong ShotとClose-up shot の判別に利用する。
また,(2)Goal Long Shot も(1)Center Long Shot と同じLong Shot であるので、同様の傾向を示す。
【0075】
次に、動きベクトルの方向による分散値について説明する。
各ショットでは、動きベクトルの参照するマクロブロック位置の方向にそれぞれ特徴があることから、動きベクトルの方向をショット分類の判別に利用する。
(1)Center Long Shotでは、選手が大きく映っていないために、動きベクトルの方向はカメラワークの動きの方向になり、フレーム内のそれぞれの動きベクトルの方向はほぼ同じ向きとなる。
(3)Close-up shotでは、選手が大きく映っているため、動きベクトルの参照位置も選手の部位の動きに合わせて、様々な方向となることから、それぞれの動きベクトルの方向も分散する。
【0076】
本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム3は、動きベクトルの方向を図18のように上下左右の4つの方向に量子化し、各方向に分類されるP,Bフレームでのマクロブロック数を求める。
【0077】
図19は、(1)Center Long Shotと(3)Close-up shotの一例において、図18の方向の量子化による1フレームでのマクロブロック数の値を示している。この図から、(1)Center Long Shotでは動きベクトルの方向が一方向に集中しており、それに比較して、(3)Close-up shotでは4方向へ分散していることがわかる。
【0078】
量子化されたマクロブロック数から、各方向の偏りを求めるために、以下の数2(式(4.2))から分散度Dを算出する。分散度DをP,Bフレームから1フレームずつ計算し、1GOPごとにその平均を求める。
【0079】
【数2】
JP0005181325B2_000003t.gif

【0080】
そして、(1)Center Long Shotと(3)Close-up shotの1ショットにおけるGOP単位での分散度Dの推移、および、1ショットでのDの平均値バーD(バーDはDの平均を示すものとする)をそれぞれ図20、図21に示す。これらの図より、1ショットでのDの平均値バーDが、(1)Center Long Shotでは約0.2、(3)Close-up shotでは約0.65となり、分散度に大きな違いがあることがわかる。
本実施の形態によれば、前記バーDを(1)Center Long Shotと(3)Close-up shot の判別に用いる。
【0081】
次に、色成分によるグラウンド領域の判別について説明する。
Long Shot の中において、ゴールエリア付近の画面では、グラウンドのセンター付近の画面に比べ、グラウンド領域の境界線の傾きが大きくなるという特徴がある。本実施の形態では、この特徴を利用することで、Long Shotの中で、(1)Center Long Shotと(2)Goal Long Shotを判別する。
【0082】
グラウンドの領域を抽出する特徴量としては、MPEGデータ内の輝度・色差成分の色情報を用いる。グラウンド、つまり、芝の色情報としての輝度・色差( Y , Cb,Cr )の範囲をあらかじめ定めておき、その範囲内の輝度・色差を持ったマクロブロックをグラウンド上のブロックと判別する。
本実施の形態の一例では、輝度、色差、そしてこれらの比r = Cb/Crの範囲を数3(式(4.3))のように定めた。芝の色には、色差成分の割合であるrに一定の値となることから、rとCb, Crの色差の範囲と、明るさを表す輝度Yの範囲を定めることで芝領域に含まれるマクロブロックを抽出することができる。
【0083】
【数3】
JP0005181325B2_000004t.gif

【0084】
より具体的に説明すれば、カット部検出システム及びショット検出システム並びにシーン検出システム3は、Iフレームを平行な複数の水平状のラインに分割し、このライン毎に、輝度成分Y、色差成分Cb、色差成分Cr、色差成分の比r=Cb/Crが、それぞれ数3(式(4.3))で示される色条件を満たすマクロブロックの数を求める。
本願発明者の実験によれば、前記数3(式(4.3))を用いることで、グラウンド領域を正確に抽出することができ、例えば、選手が着用している緑色のユニフォームを避けることができる上、スタジアムの影となっているグラウンド部分の芝を抽出することもできた。
【0085】
グラウンド領域の境界線の傾きを表すために、抽出したグラウンド部分のマクロブロックの個数を横一列のライン毎に加算した水平投射グラフを図22、図23、図24に示す。
また,同図22、図23、図24の各々には、グラウンド領域の水平投射グラフから、一定の範囲内(例えばrange=3)で、最小2乗法により、グラフの傾きを算出し、その範囲を1つづつずらしていくことで、前記水平投射グラフの傾きを表す。
すなわち、前記水平投射グラフの傾きとは、各フレームを平行な複数の水平ラインに分割した場合において、前記水平ラインを垂直方向へ変化させた場合の変化量に対する、芝を示すマクロブロック数の変化の度合を示すことになる。
【0086】
なお、前記最小2乗法とは、n個のデータ(x1, y1), (x2, y2), ・・・, (xn, yn) が得られたときに、最もフィットする直線をy=ax+bとし、この傾きaを数4(式(4.4))から求める。
【数4】
JP0005181325B2_000005t.gif
図22、図23、図24によれば、垂直方向をy軸、水平方向をx軸とする。
【0087】
図22,図23,図24は、代表的な(1) Center Long Shot,(2) Goal Long Shot,(3) Close-up Shotの一例について、左から順に、その代表フレームの画像、グラウンド領域の水平投射グラフ、水平投射グラフの傾きを示している。
【0088】
本実施の形態の一例では、図22,図23,図24から、グラウンド領域のマクロブロック数が40以上の位置(ライン)の数Xと、グラウンド領域のマクロブロック数が5以下の位置(ライン)の数Yと、傾きの大きさの最大値Zとの3つの数値を求める。
そして、これらの3つの特徴量を、 (1)Center Long Shot,(2)Goal Long Shot,(3)Close-up Shot,(4)Out-field Shot等の判別に用いる。
【0089】
すなわち、図22の(1)Center Long Shotでは、グラウンド領域の境界線が水平方向の直線となるので、水平投射グラフの傾きの最大値Zは大きくなる。さらに、水平方向におけるグラウンド領域のマクロブロック数が40以上となる垂直方向の位置数Xが20 以上となり、40以上の位置数Xと5以下の位置数Yが垂直方向の位置での大部分を占めるため、X + Y は25 以上となる。
【0090】
一方,図23の(2)Goal Long Shotでは、グラウンド領域の境界線が水平方向に対しての傾きが緩やかになるため、水平投射グラフの傾きの最大値Zは(1)Center Long Shotより小さくなる。また、Xは、(1)Center Long Shotよりも領域が小さくなるので、Xの範囲が10以上から20未満となり、X+Yは10以上から25未満となる。
【0091】
図24の(3)Close-up Shotでは、選手が映っているので、グラウンド領域と判断されるマクロブロックが少なくなる。このため、Xの領域とYの領域が小さくなることから、X+Yが15未満となる。
【0092】
また、図26のように、Iフレーム内におけるグラウンド領域のマクロブロック数Tにおいて、(1)Center Long Shotでは、グラウンド領域のマクロブロックが多く、(3)Close-up Shotではグラウンド領域のマクロブロックが少ないという特徴がある。よって、GOPのIフレーム内のグラウンド領域と判断されたマクロブロック数Tをショット判別に利用する。
【0093】
そして、本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム3は、リプレイショット以外のショットの判別に用いる特徴量として、以下の値をそれぞれ算出する。
バーM:1ショットでの動きベクトル量の平均。
バーD:1ショットでの動きベクトルの分散値の平均。
バーT:ショットの最後の3GOPのIフレームにおけるグラウンド領域のマクロブロック数の平均。
バーX:ショットの最後の3GOP のI フレームにおける横一列のグラウンド領域が40以上の位置数(ライン数)の平均
バーY:ショットの最後の3GOPのIフレームにおける横一列のグラウンド領域が5以下の位置数(ライン数)の平均。
バーZ:ショットの最後の3GOP のI フレームにおけるグラウンド領域の傾きの最大値の平均。
【0094】
上述した動きベクトル、及び色情報の特徴量を用いたショット判別の流れは,図27に示すようになる。
【0095】
詳細に説明すれば、先ず、カット部検出システム及びショット検出システム並びにシーン検出システム3は、上記瞬時カット点によって区切られたショットであって、上記リプレイショット以外のショットについて、バーY≧27であって、かつ(バーD≧0.8又はバーM≦40000)の条件を満たす場合には、そのショットを、(4)Out-field Shotと判別する。そして、そうでない場合には、以下の処理を行う。
【0096】
次に、バーY≧15、バーT≦200、バーD≧0.5、バーM≧60000の内、何れか一つの条件を満たす場合には、前記ショットを、(3)Close-up Shotと判別する。そうでない場合には、以下の処理を行う。
【0097】
次に、4≦バーZ≦11、8≦バーX≦18、10≦(バーX+バーY)≦25の三つの条件をすべて満たす場合には、前記ショットを、(2)Goal Long Shotと判別する。そうでない場合には、以下の処理を行う。
【0098】
次に、(バーX+バーY)≦14という条件を満たす場合には、前記ショットを(3)Close-up Shotと判別し、そうでなければ、前記ショットを(1)Center Long Shotと判別する。
【0099】
なお、図27中の各閾値は、ショット判別の対象がサッカー試合映像である場合に特に好ましい一例を示すものである。
【0100】
また、図示例によれば閾値の上限又は下限を特定していない条件があるが、以下のように適宜な値に特定してもよい。
例えば、バーYの最上限値は、1フレームにおける垂直方向の最大マクロブロック数(例えば30)とすることが可能である。
また、バーDの最上限値は、例えば1とすることが可能である。
また、バーMの最下限値は、例えば0とすることが可能である。
また、バーMの最上限値は、例えば1ショット中の全ての動きベクトルの量とすることが可能である。
また、バーTの最下限値は、例えば0とすることが可能である。
また、(バーX+バーY)の最下限値は、例えば0とるすことが可能である。
【0101】
次に、上記のようにして判別された5つのショットについて、その配列的な特徴からシーンを判別する手段について説明する。
本実施の形態では、検出するシーンとして、ゴールシーンと、シュートシーンを対象とする。ゴールシーンの定義として、シュートしたボールがゴール内に入り、得点が入る場面のこととする。
【0102】
一方、シュートシーンの定義は、攻撃している側の選手が守備側のゴールに向かってシュートし、ボールがゴールの枠内に入らず、ゴールラインを割る場面のこととする。具体的には、攻撃側の選手が蹴ったボールが直接、または、キーパーが弾くなどして、守備側のペナルティエリア内のゴールラインを割り、さらに、シュートのショットの後に、リプレイショットが挿入される場面を対象にしている。すなわち、リプレイショットが入るシーンは、番組の製作者が注目している場面であり、視聴者が特に見たい重要な場面であると考えられるためである。
【0103】
ゴールシーンなどの特定のシーンには、一連のショットの移り変わりに典型的なパターンが存在する。例として,ゴールシーンのショットの流れと、シュート(ゴールはしていない)シーンでのショットの流れをそれぞれ図28と図29に示す。
【0104】
図28に示すように、一般的なサッカー試合映像のシュートシーンでは、(2)Goal Long Shotの後、(3)Close-up Shotが1~3ショット入り、その後(5)Replay Shotが1~2ショット入る傾向にある。
一方、図29のようなゴールシーンでは、(2)Goal Long Shot の後に、(3)Close-up Shotがシュートシーンより多く3~5ショット入り、間に(4)Out-field Shotも入ることが多い。また、リプレイショットの数も3~4ショットとシュートシーンよりも多い傾向にある。
本実施の形態は、このようなショットの遷移パターンの特徴を利用することで、ゴールシーンとシュートシーンを区別し、検出するようにしている。
【0105】
すなわち、本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム3は、各ショットを図16の分類によって,記号化,つまり,各ショットのラベル付けを行ない、映像データを対応するショットの記号列に置き換える。
図28や図29のように特定のシーンには特定のショットの移り変わりにパターンがあることから、ショットの記号列においてもシーン固有の典型的なパターンが存在する。このようなシーンの典型的な記号列パターンと、映像データの記号列とについて、パターンマッチング処理を行なうことでシーンを検出する。パターンマッチング処理には、後述するDPマッチングを用いる。
【0106】
より具体的に説明すれば、カット部検出システム及びショット検出システム並びにシーン検出システム3は、図30に示すように、動画像データから検出された各ショットに対しその種類に応じたショット記号(図示例によれ1~5の番号)を付与することで、ショット記号列(図示例ではショットタイプ列と称す)を作成し、このショット記号列を、記憶装置の所定の記憶領域(ショット記号列記憶手段)に記憶する。
【0107】
なお、検出対象のシーンに対応するように複数のショット記号を配列してなるモデルパターン記号列(図示例によれば、2335や2333435等の数字列)は、予め、記憶装置の所定の記憶領域(モデルパターン記憶手段)に記憶しておく。
【0108】
このモデルパターン記号列の一例としては、図28(シュートシーンでのショットの流れ)に示すように、グラウンドを映しているショットであって且つ最後の三つのグループオブピクチャがゴール付近の映像であるゴールロングショットを示すショット記号(2)と、選手のアップを映しているクローズアップショットを示すショット記号(3)と、先の映像の繰り返しを映しているリプレイショットを示すショット記号(5)とを、この順番に配列してなる記号列「235」や、記号列「2335」等とすればよい。
【0109】
また、モデルパターン記号列の他例としては、図29(ゴールシーンでのショットの流れ)に示すように、グラウンドを映しているショットであって且つ最後の三つのグループオブピクチャがゴール付近の映像であるゴールロングショットを示すショット記号(2)と、選手のアップを映しているクローズアップショットを示す複数のショット記号(3)と、フィールド外を映しているアウトフィールドショットを示すショット記号(4)と、選手のアップを再度映しているクローズアップショットを示すショット記号(3)と、先の映像の繰り返しを映しているリプレイショットを示すショット記号(5)とを、この順番に配列してなる記号列「23435」や、記号列「233435」、記号列「2333435」等とすればよい。
【0110】
そして、本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム3は、前記ショット記号列記憶手段のショット記号列中から、前記モデルパターン記憶手段のモデルパターン記号列に対応する記号列を検出する検出手段を備える。
この検出手段は、前記ショット記号列に対し前記モデルパターン記号列を照合させて、前記ショット記号列中から前記モデルパターン記号列に略合致する記号列を検出するパターンマッチング処理を行うものである。
【0111】
前記処理において、ショット記号列中の記号列と、モデルパターン記号列とは、予め設定された適宜な類似度で合致するようにすればよい。
例えば、図30によれば、ショット記号列中の「235」に対し、モデルパターン記号列「2335」は、完全一致しないが、略合致したものと判断されている。同様に、ショット記号列中の「233435」に対し、モデルパターン記号列「2333435」も略合致したものと判断されている。
【0112】
本実施の形態では、前記パターンマッチング処理の具体的手法として、DPマッチング処理を用いている。以下に、このDPマッチング処理について詳述する。
時系列パターンの類似度を求める手法としては、音声認識などによく用いられる動的計画法(DP マッチング)や、隠れマルコフモデル(HMM)などがある。
Dynamic Programming Matching(DP マッチング)は、異なる二つの時系列信号の類似度と最適な対応を求める手法であり、音声認識等のさまざまな分野で利用されている。DPマッチングは非線形の伸縮により、長さの異なるパターンの類似度を計算することができる。これらの利点により,本実施の形態では、時系列パターン間の類似度を求める手法として、DP マッチングを用いる。
DPマッチングの具体的な実現方法について,図31を用いて説明する。
2 つのパターンAとBを特徴ベクトルの時系列として表現する。つまり、数5(5.1式)とする。
【0113】
【数5】
JP0005181325B2_000006t.gif

【0114】
ここで、A,B 両パターンの時間の対応、すなわち時間伸縮関数は,図31の平面上の格子点ck = (i, j)の系列Fで表現することができる。
【0115】
【数6】
JP0005181325B2_000007t.gif

【0116】
2つの特徴ベクトル列ai とbj との( スペクトル)距離をd(c) = d(i, j) で表
すと、F に沿った距離の総和は、数7((5.3)式)で表すことができ、この値が小さいほどA とB の対応づけがよいことを示す。ここで、wk はF に関連した正の重み関数である。
ここで、上式を、次のような制限のもとで、F に関して最小化することを考える。
【0117】
【数7】
JP0005181325B2_000008t.gif
【数8】
JP0005181325B2_000009t.gif

【0118】
点列F に沿ってとった距離の荷重平均を考え、その値を最小とするようにF を変化させ、2 つのパターンA とB のマッチングを行う。ここでFの変化には、あまり極端な時間軸の伸縮は許されないように制限をつけ、図32に示す3通りのみを考えることにする。2つの特徴ベクトルaiとbj との距離をd(c) = d(i, j) で表し、部分点列c1c2・・・ck に対する部分和をg(ck) = g(i, j) とすると、最適性の原理(最適政策の部分系列はやはり最適政策になっている)により、数9(式(5.5))のような漸化的な表現となる。
【0119】
【数9】
JP0005181325B2_000010t.gif

【0120】
このようにして計算していき、最終的に求められたg(I, J) が2つのパターンAとB との距離の最小値であり、その時のF が最適なマッチングを表す時間変換関数といえる。
格子点(i,j) までに選択された経路の長さを数10(式(5.6))より求める。
【0121】
【数10】
JP0005181325B2_000011t.gif

【0122】
i = J まで、到達したときに、数9(式(5.5))の累積距離を数10(式(5.6))の経路の長さで割ることで距離の正規化をはかり、整合窓の中におけるG(i, J) が最小となる経路を求めることで、最適な経路を探し出すことができる。
【0123】
【数11】
JP0005181325B2_000012t.gif

【0124】
さらに、図33において、Input Pattern におけるi = 0 の始点からG(i, J) の値が最小となるmin(G) のi までが、その始点において、最もSample Patternとマッチングされた系列となる。さらに、始点をi = 1, 2, ・・・, I と1 ずつ移動させながら、min(G) までのInput Pattern の系列をそれぞれ求める。その中から、min(G) が閾値以下となるパターンを最もSample Pattern と類似した系列として求めることができる。
【0125】
次に、上記構成のカット部検出システム及びショット検出システム並びにシーン検出システム3を用いて、実際のサッカー試合映像のMPEG2データからカット点、ショット、リプレイショット、シーンを検出した結果について説明する。
ここで、前記サッカー試合映像の動画像は、解像度640 × 480、ビットレートは平均5.5Mbps、最大8MbpsのVBR(Variable Bit Rate,可変速度)、プロファイルとレベルは、MP@ML、GOPはIBBPBBPBBPBBPBBIBB・・・というP フレームの後にB フレームが2枚続くN=2 の構成をしている。1つのGOPは基本的にはIフレーム1 枚,P フレーム4 枚,B フレーム10 枚の計15 枚だが、それ以外のランダムGOPも存在し、その場合のランダムGOPは15 枚未満の3 の倍数で構成される。
結果は、図34~37に示す通りであり、カット点、ショット、リプレイショット、シーンの何れにおいても、比較的高確率の検出結果を得ることができた。
【0126】
なお、上記実施の形態によれば、サッカー試合映像を対象に、カット点、ショット、リプレイショット、シーン等の検出を行ったが、他例としては、上述した色情報範囲(0.68 ≦ r ≦ 1.1 , 85 ≦ Y ≦ 145 , 80 ≦ Cb ≦ 125 , 95 ≦ Cr ≦ 130)や特徴量(バーM,バーD,バーT,バーX,バーY.バーZ)の範囲等を適宜に変更することで、例えば、相撲の映像、野球映像、メロドラマ等、他の種類の動画像を対象にすることも可能である。
【0127】
また、上記実施の形態は、特に好ましい態様としてMPEG2データを扱う態様としたが、上記したマクロブロック情報や、動きベクトル情報、輝度・色差情報等を含む他の動画圧縮データを扱うことも可能であり、例えば、MPEG1データや、MPEG4データ、H.264データ、その他の動画圧縮データを処理する可能性を有する。
【図面の簡単な説明】
【0128】
【図1】本発明に係わるカット部検出システム及びショット検出システム並びにシーン検出システムの一例を示すブロック図である。
【図2】一般的な420フォーマットのマクロブロックを示す概念図である。
【図3】一般的なマクロブロックの輝度・色差成分について示す概念図である。
【図4】本発明の一例において、特徴量が抽出されるフレームを示す概念図である。
【図5】一般的な動画像の構造を示す概念図である。
【図6】動画像圧縮データについて、再生順、ビットストリーム順、出力順の関係を説明する概念図である。
【図7】リプレイショットについて説明する概念図である。
【図8】リプレイカット部の一例を示す画像である。
【図9】リプレイカットとリプレイショットの関係を示す概念図である。
【図10】カット点が発生する位置とBフレームが参照するフレームとの関係を示す概念図である。
【図11】カット点が発生する位置とBフレームが参照するフレームとの関係を示す概念図である。
【図12】MBT記号と該MBT記号を与える条件との関係を示す表である。
【図13】瞬時カット点およびリプレイカット点のパターンを説明する概念図である。
【図14】リプレイカット部でのマクロブロックタイプを示す概念図である。
【図15】リプレイショットの判別について示す概念図である。
【図16】ショットの分類の一例を示す画像である。
【図17】1ショットでの動きベクトル量の推移を示すグラフである。
【図18】方向の量子化を示す概念図である。
【図19】量子化された動きベクトルの方向とマクロブロック数の関係を示すグラフである。
【図20】センターロングショットでの動きベクトル方向の分散度の推移を示すグラフである。
【図21】クローズアップショットでの動きベクトル方向の分散度の推移を示すグラフである。
【図22】センターロングショットでのグランド領域の傾きについて説明するグラフである。
【図23】ゴールロングショットでのグランド領域の傾きについて説明するグラフである。
【図24】クローズアップショットでのグランド領域の傾きについて説明するグラフである。
【図25】水平投射グラフの傾きを説明するグラフである。
【図26】Iフレーム内におけるグラウンド領域のマクロブロック数を示すグラフである。
【図27】ショット判別のフローを示す概念図である。
【図28】シュートシーンのパターンの一例を示す画像である。
【図29】ゴールシーンのパターンの一例を示す画像である。
【図30】シーン検出のフローを示す概念図である。
【図31】DPマッチング処理においてパターンA,Bの時間の対応を示すグラフである。
【図32】DPマッチング処理において点(i,j)における部分和g(i,j)の計算を示す概念図である。
【図33】DPマッチング処理におけるパターンマッチング方法を示す概念図である。
【図34】カット点の検出方法及び検出結果を示す説明図及び表である。
【図35】ショットの分類方法及び分類結果を示す説明図及び表である。
【図36】リプレイショットの検出方法及び検出結果を示す説明図及び表である。
【図37】シーンの検出方法及び検出結果を示す説明図及び表である。
【符号の説明】
【0129】
1:バッファ
2:復号器
3:カット部検出システム及びショット検出システム並びにシーン検出システム
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13
【図15】
14
【図16】
15
【図17】
16
【図18】
17
【図19】
18
【図20】
19
【図21】
20
【図22】
21
【図23】
22
【図24】
23
【図25】
24
【図26】
25
【図27】
26
【図28】
27
【図29】
28
【図30】
29
【図31】
30
【図32】
31
【図33】
32
【図34】
33
【図35】
34
【図36】
35
【図37】
36