TOP > 国内特許検索 > 動画像生成システム > 明細書

明細書 :動画像生成システム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第4695275号 (P4695275)
公開番号 特開2002-269580 (P2002-269580A)
登録日 平成23年3月4日(2011.3.4)
発行日 平成23年6月8日(2011.6.8)
公開日 平成14年9月20日(2002.9.20)
発明の名称または考案の名称 動画像生成システム
国際特許分類 G06T  13/00        (2011.01)
G06T  13/80        (2011.01)
G06T  15/00        (2011.01)
FI G06T 13/00 B
G06T 15/00 100A
請求項の数または発明の数 6
全頁数 20
出願番号 特願2001-063854 (P2001-063854)
出願日 平成13年3月7日(2001.3.7)
審査請求日 平成19年11月27日(2007.11.27)
特許権者または実用新案権者 【識別番号】503360115
【氏名又は名称】独立行政法人科学技術振興機構
発明者または考案者 【氏名】星野 准一
個別代理人の代理人 【識別番号】100105371、【弁理士】、【氏名又は名称】加古 進
審査官 【審査官】田中 幸雄
参考文献・文献 特開平08-147494(JP,A)
特開平09-035082(JP,A)
特開2001-005973(JP,A)
星昌人ほか,ディジタルクローン俳優のための動画像解析と動作生成,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2000年 6月22日,Vol.100 No.134,1-8頁
斉藤啓史ほか,ビデオ映像とCGの合成によるヴァーチャルファッションの実現,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2000年 6月22日,Vol.100 No.134,15-22頁
調査した分野 G06T 13/00
G06T 15/00
特許請求の範囲 【請求項1】
動画像生成システムであって、
人体の3次元モデルのシルエット画像と、該シルエット画像と対応して人体の3次元モデルの姿勢パラメータとを複数記憶している記憶手段と、
2次元動画像を取得する2次元動画像取得手段と、
該2次元動画像取得手段からの2次元動画像内の人物と該記憶手段に記憶しているシルエット画像とのマッチングを行い、姿勢が類似しているシルエット画像を選択し、該シルエット画像に対応する3次元モデルの姿勢パラメータから各パーツの中心線を推定することにより、3次元人体モデルの初期姿勢の姿勢パラメータを推定する初期姿勢推定手段と、
前記取得した2次元動画像内の人物から、人体の3次元モデルを構成する各パーツ(オブジェクト)の動作パラメータを得る動作推定手段と、
前記2次元動画像内の人物より3次元モデルの各パーツと対応するテクスチャ・データを抽出するテクスチャ抽出手段と、
前記3次元モデルの各パーツの動作パラメータを用いて、初期姿勢から3次元モデルを生成する3次元モデル生成手段と、
前記生成した3次元モデルから、視点を設定して2次元の動画像を生成し、前記生成した新たな3次元モデルにおいて、前記抽出したテクスチャ・データでは不足する2次元動画像部分は、前記抽出したテクスチャ・データより補間して得る動画像生成手段と
を備えることを特徴とする動画像生成システム。
【請求項2】
請求項1に記載の動画像生成システムにおいて、
前記3次元モデル生成手段は、前記動作推定手段で得た動作パラメータを変更する動作変更手段をさらに備え、取得した2次元動画像の人物とは異なる動きの動画像を生成することを特徴とする動画像生成システム。
【請求項3】
請求項1又は2に記載の動画像生成システムにおいて、
前記3次元モデル生成手段は、さらに、前記生成した3次元モデルに、他のオブジェクトを合成することを特徴とする動画像生成システム。
【請求項4】
請求項3に記載の動画像生成システムにおいて、
前記3次元モデル生成手段の前記他のオブジェクトは、衣装モデルから前記3次元モデルの動作パラメータを用いてフィッテングされた衣装であり、
前記動画像生成手段は、前記3次元モデルと前記衣装とを同時にレンダリングして合成画像を得る
ことを特徴とする動画像生成システム。
【請求項5】
請求項1~4のいずれかに記載の動画像生成システムをコンピュータ・システムに構成させるコンピュータ・プログラム。
【請求項6】
請求項1~4のいずれかに記載の動画像生成システムをコンピュータ・システムに構成させるコンピュータ・プログラムを記録した記録媒体。
発明の詳細な説明
【0001】
【発明の属する技術分野】
本発明は、2次元のビデオ映像から、リアルな人物3次元CGを容易に生成することができるシステムであり、特にビデオ映像から生成した人物の3次元モデルを用いて、リアルな動画像を生成できる人物動画像生成システムに関する。
【0002】
【背景技術】
今日、映画の特殊効果の生成や、ビデオゲームの開発では、リアルな人物CGの生成が重要な課題である。ところが、人物のように複雑な被写体のCGを生成する作業は、ほとんどがアニメーターの手作業で行われていて、非常にコストが高いという問題がある。
近年では、実際に存在する俳優のCGが必要とされることも多い。例えば、映画の制作現場では、危険なスタント・シーンを撮影するときに、代役で撮影した映像を加工して、主演している俳優が演技をしているように見せることが必要となる。また、コマーシャル・フィルム(CM)では、過去の有名な人物を登場させて、他の俳優と競演する場面が増えている。ところが、従来手法では、既に撮影したフィルムから手作業で映像を切り出してつなぎ合わせる程度しかできないため、制約が大きいだけでなく、作業に必要な労力も膨大である。
また、ビデオ編集においても、より自由度の高い人物画像の編集が望まれている。例えば、既に撮影した映像中の人物を、異なるカメラ・アングルから見た場合に変更したり、衣服や髪型の変更、姿勢の変更を行うことができれば、ポスト・プロダクションの作業をより効果的に行うことができる。
【0003】
これらのようにリアルな映像を容易に生成する手法としては、CGの分野でイメージ・ベース・レンダリング手法が提案されている。この手法では、実写画像に3次元モデルを当てはめることで、自由な視点位置から見た映像を生成する。ところが、従来手法では、屋外の建築物などの単純な形状を持つ物体や、顔のように単一の物体を対象としている。そのため、人物のような複雑な動作を行う被写体へ適用することができないという問題がある。
自由な視点位置から画像を生成する手法については、コンピュータ・ビジョンの分野でも、Virtualized Reality(仮想化された現実)とも呼ばれて盛んに研究が行われている。これらの手法では、撮影環境内に多数のカメラを設置して、ステレオ法などの手段により3次元モデルを生成する。ところが、正確な3次元モデルを推定するためには、多数のカメラが必要となり、コストが高くなるという問題がある。また、オクルージョンによって見えない部分については、3次元形状を復元することができないという問題がある。
【0004】
【発明が解決しようとする課題】
本発明の目的は、ビデオ画像より復元した人体の3次元モデルを利用した動画像生成処理の適用により、リアルな人物CGを容易に生成することである。
【0005】
【課題を解決するための手段】
上記の目的を達成するために、本発明は、動画像生成システムであって、人体の3次元モデルのシルエット画像と、該シルエット画像と対応して人体の3次元モデルの姿勢パラメータとを複数記憶している記憶手段と、2次元動画像を取得する2次元動画像取得手段と、該2次元動画像取得手段からの2次元動画像内の人物と該記憶手段に記憶しているシルエット画像とのマッチングを行い、姿勢が類似しているシルエット画像を選択し、該シルエット画像に対応する3次元モデルの姿勢パラメータから各パーツの中心線を推定することにより、3次元人体モデルの初期姿勢の姿勢パラメータを推定する初期姿勢推定手段と、前記取得した2次元動画像内の人物から、人体の3次元モデルを構成する各パーツ(オブジェクト)の動作パラメータを得る動作推定手段と、前記2次元動画像内の人物より3次元モデルの各パーツに対応するテクスチャ・データを抽出するテクスチャ抽出手段と、前記3次元モデルの各パーツの動作パラメータを用いて、初期姿勢から3次元モデルを生成する3次元モデル生成手段と、前記生成した3次元モデルから、視点を設定して2次元の動画像を生成し、前記生成した新たな3次元モデルにおいて、前記抽出したテクスチャ・データでは不足する2次元動画像部分は、前記抽出したテクスチャ・データより補間して得る動画像生成手段とを備える。これにより、生成した人体モデルとテクスチャを利用して、新たな視点位置を設定することにより別の視点位置から見た人物画像も生成することができる。
【0006】
前記3次元モデル生成手段は、前記動作推定手段で得た動作パラメータを変更する動作変更手段をさらに備え、取得した2次元動画像の人物とは異なる動きの動画像を生成することもできる。
前記3次元モデル生成手段は、前記生成した3次元モデルに他のオブジェクトを合成することができる。
例えば、前記3次元モデル生成手段の前記他のオブジェクトは、衣装モデルから前記3次元モデルの動作パラメータを用いてフィッテングされた衣装であり、前記動画像生成手段は、前記3次元モデルと前記衣装とを同時にレンダリングして合成画像を得ることができる。
本動画像生成システムをコンピュータ・システムに構成させるコンピュータ・プログラムおよびコンピュータ・プログラムを記録した記録媒体も本発明である。
【0007】
【発明の実施の形態】
<本発明の概要>
本発明は人体の3次元モデルを利用した動画像処理の適用により、リアルな人物CGを容易に生成する人物画像生成システムである。
図1は本発明を用いた実施形態の一例である、モデルに基づく人物動画像生成システムの機能構成図を示す。図1に示すように、本システムは、テレビカメラにより人物の動画像を連続的に取得する画像取得部10、人物の各関節のパラメータを推定したり、顔や衣服などの人物テクスチャを抽出する動作推定部20、後述する人体モデルを利用した隠蔽箇所の復元や、異なる視点位置から見た画像の生成を行なったり、衣服CGや髪型CGの合成や、姿勢の変更などを行う画像生成部40、そして生成した結果を表示する画像表示部50で構成している。
【0008】
このような構成の本システムでは、画像取得部10で取得した人物動画像に、あらかじめシステムに用意してある人体の3次元モデルを当てはめて、動作推定部20において、各関節の3次元動作を推定すると共に、顔や衣服などの輝度情報を人体モデルのテクスチャとして蓄積する。また、画像生成部40において、撮影した視点位置から見たときに隠蔽されている箇所を、人体モデルを利用したCGの生成で補うことで、全身像を復元する。このようにして得た画像を画像表示部50から表示している。
図2~図4は、本発明における処理の概要を分かりやすく説明するために、ビデオ映像に上述の処理を適用した例を示している。図2(a)は画像取得部10で取得した入力画像の例である。図2(b)は動作推定部20で人体モデルの姿勢を推定した例である。図3(c)は、画像生成部40で人体の3次元モデルにテクスチャ・マッピングをした人体画像を、自由な視点位置から見た例である。そしてこのとき、画像生成部40は撮影した視点位置から見たときに隠蔽されている箇所を、人体モデルを利用したCGの生成で補っている。図3(d)は前述のCGの生成で補った画像の例を示す図である。
【0009】
このように、本システムにおいては、生成した人体モデルとテクスチャを利用して、自由な視点位置から見た人物画像を生成したり、入力画像とは異なる動作の人物画像を生成したり、人物のような複雑な被写体に、CGによる別の衣服や髪型の合成を行うことができる。図4(e)は衣服のCGを合成した例、図4(f)は異なる姿勢へ変更した例である。
また、多様な姿勢を持つ人物画像を、関節角の変更データを用いて生成できるため、動画像圧縮の手段としても利用することができる。
以上のような処理を行うシステムを以下に詳細に説明する。
【0010】
<モデルに基づく人物動作の推定>
動作推定部20におけるモデルに基づく人物動作を、動画像を構成する連続した画像(フレーム)間から推定する処理を以下に詳細に説明する。
(移動量の推定)
動作推定部20においては、人体の3次元モデルを当てはめて、各関節の3次元動作を推定している。図5に、動作推定部20で用いている人体モデル300を示す。図5のように、人体モデル300は、各パーツをオブジェクトで表し、それらを接続することで全体を表している。この人体モデル300は、頭部310、胴体315、右上腕322、左上腕324、右前腕332、左前腕334、右腿342、左腿344、右膝下352、左膝下354の各パーツ(各オブジェクト)で構成している。動作推定部20では、このような人体モデル300を利用してフレーム間の人物動作を推定する。人体モデル300の各パーツ(各オブジェクト)の接続関係は、胴体315を頂点として、腕や頭部といった末端のパーツに向かって親子関係の接続として定めることができる。親パーツが動くと、その子に当たるパーツは親パーツの座標系で規定される接続関係で一緒に動くことになる。この人体モデル300を用いて、以下で動作について説明を行う。
なお、この人体モデルは標準形をシステムで用意して、ユーザが対象となる人物に会わせて調整することで得ることができる。
図6は、カメラ座標系およびワールド座標系と人体モデルの関係を示す図である。この図において、動画像はカメラ座標系で記述される画像面410に表示される。人体モデル300上の任意の点を、ワールド座標系を用いて、
【数1】
p=(x,y,z)
とする(上式で括弧の肩に付けられているTは転置行列を表す)と、カメラ座標系に投影した画像面410上の点(X,Y)は、
【数2】
X=fx/z
Y=fy/z (fは画像面410を生成するカメラの焦点距離)
となる。同様に、人体モデル300上にある任意の点pに関する3次元速度ベクトルを、
【数3】
JP0004695275B2_000002t.gifとすると、このベクトルはフレーム間での点pの移動速度を表している。画像面410上の速度ベクトル(U,V)とすると、両者の関係は、
【数4】
U=(fu-Xw)/z
V=(fv-Yw)/z
となる。
【0011】
また、画像面410上の点(X,Y)における時刻tでの輝度をE(X,Y,t)とする。そして、(Ex,Ey)を輝度微分、Eを時間微分とすると、画像面410上の速度ベクトル(U,V)は、次の時空間勾配の拘束条件式を満たす。
【数5】
U+EV+E=0
この式に上述のU,Vを代入すると、次式のように人体モデル300上の任意の点pと、画像面410上の点(X,Y)および輝度値Eの関係を示すことができる。
【数6】
JP0004695275B2_000003t.gif
【0012】
次に、人体モデル300の全関節角の位置と姿勢を表すベクトルsを
【数7】
s=(s,s,……,s
として、sとpの関係を便宜的に非線形関数gを用いて
【数8】
p=g(s)
で表す。関数gは非線形であるが、sの時間変化率と速度ベクトルの関係は、ヤコビ行列J(s)=∂g/∂sにより、線形式で関係付けることができる。
【数9】
JP0004695275B2_000004t.gifよって、人体モデル300の全関節sの時間変化率と、画像面410上の点の輝度値の関係式を導くことができる。
【数10】
JP0004695275B2_000005t.gif上述では姿勢パラメータsと人体モデル上の任意の点pの関係をp=g(s)で表した。この関係は人体の幾何学構造から導出することができる。以下では、人体モデルの幾何学的な関係を記述する際に、同次座標系を利用する。同次座標系では、(x,y,z,w)の3次元空間内の座標値は(x/w,y/w,z/w)となる。
【0013】
(胴体のヤコビ行列の導出)
人体モデルの運動は、物体座標系における剛体変換εで表すことができる。3×3の回転行列をC、3次元の並行移動ベクトルをDとすると、剛体変換εは、次式のように表すことができる。
【数11】
JP0004695275B2_000006t.gifただし、0はゼロの転置行列を表す。また、物体座標の点
【数12】
ρoi=(xoi,yoi,zoi,1)
に剛体変換εを施す場合は、次式で表すことができる。
【数13】
ρoi’=ερoi
【0014】
ヤコビ行列を求めるためには、人体の各パーツが運動したときに、カメラ座標系で見た人体モデル上の点ρが、どのように変化するかを求めることが必要となる。この関係式は、次の3つのステップで求める。
1)まず、カメラ座標系で見た胴体モデル上の点ρを、ワールド座標系に変換する操作を、剛体変換εで表す。
【数14】
ρ=ερ
2)次に、胴体の運動を適用すると、胴体モデル上の点ρがρ’に移動する。ρ’を求めるためには、ワールド座標系の点ρを物体座標系に変換して、胴体の運動εを適用した後に、ワールド座標系に戻す操作を行う。この変換規則を
【数15】
=εoiεεoi-1
とおくと、胴体モデル上の点ρ’は次式で求めることができる。
【数16】
ρ’=Fρ=Fερ
3)最後に、ワールド座標系の点ρ’をカメラ座標系に変換する。
【数17】
ρ’=ε-1ρ’=ε-1ερ
上記のP’を時間微分することで、下記のヤコビ行列が得られる。
【数18】
JP0004695275B2_000007t.gif
【0015】
(その他の関節のヤコビ行列の導出)
上記では胴体の運動を表すヤコビ行列を導出したが、他の人体パーツの場合は胴体を親としているため、運動に依存関係が生じる。以下では、依存関係が1段階の場合(上脚,上腕,頭)と、依存関係が2段階の場合(下脚,下腕)の場合について、関係式を導出する。
1)上脚,上腕,頭の運動
胴体だけを親とする、左右上脚、左右上腕、頭の5つの物体に関して定式化を行う。まず、ρをワールド座標系に変換する。
【数19】
ρ=εsjρ
この場合は、子の移動に伴う剛体変換と座標変換Fを適用する。そして、親(この場合は胴体(i=0))の移動による変換F=[εoiεεoi-1]を適用する。
【数20】
ρsj''=εsj-1εsjρ
そして胴体のヤコビ行列の導出と同様にρ’を時間微分することで、ヤコビ行列を求める。
【0016】
2)下脚,下腕の運動
右左下脚、右左下腕の場合は、上脚、上腕を親に持ち、更に胴体を親として持っている。この場合も、胴体だけを親とする、依存関係が1段階の場合(上脚,上腕,頭)と同様な変換規則を適用することで次式が得られる。
【数21】
ρsj'''=εsj-1i1εsjρ
そしてこれまでのヤコビ行列の導出と同様にρ’を時間微分することで、ヤコビ行列を求める。
【0017】
3)N個の物体が接続された場合
物体の数が増加した場合も,2)と同様の規則で求めることができる。
【数22】
JP0004695275B2_000008t.gif以上のヤコビ行列を利用して、上述の画像面410上の点の輝度値の関係式を人体モデル300上の複数の点から求めて、最小2乗法で解くことにより、人体の動作パラメータsを求める。そして以下で説明する初期姿勢に、上記で求めた動作パラメータを加算することで、各フレームの人体モデル300の姿勢を得る。
【0018】
<初期姿勢の推定>
上述の動作推定法ではフレーム間の動きしか推定することができないため、人体モデル300の初期姿勢を推定することが必要となる。以下では、拡張カルマン・フィルタにより、シルエット画像から抽出した中心線と、人体モデルの体軸を一致させる手法を述べる。
ワールド座標系での人体モデル300の各パーツの姿勢aを表した式を以下に示す。
【数23】
a=[r,d]
dはワールド座標の原点からの移動成分を表すベクトルである。また、rはワールド座標の各座標軸である回転軸に沿ったベクトルであり、ベクトルの大きさは回転角に等しい。
【0019】
図7は、画面上の線分の関係と、それに対応する人体モデル300中のパーツとの関係を示した図である。3次元(3D)線分Pの投影された画像面410上の2次元(2D)予測線分がQである。図7における2次元(2D)観測線分Q’と2D予測線分Qを、2次元画面上410での始点および終点を表わすワールド座標系のベクトルq’,q’,qおよびqで表わした式を以下に示す。
【数24】
Q’=(q’,q’)
Q=(q,q
また、3D線分Pをワールド座標系での線分の始点および終点を表わすベクトルpおよびpで表わした式を以下に示す。
【数25】
P=(p,p
そして、初期位置で観測された2D観測線分Q’と3D線分Pの組をlとして、以下の式に示す。
【数26】
l=(P,Q’)
この3D線分Pと、それに対応する画像面410上での2D観測線分Q’の組lを求める手法を以下に説明する。図8は入力した動画像より人体モデルの初期位置を推定するまでの処理の過程を示す図である。この図8を参照しながら以下に説明をする。
【0020】
(中心線の推定)
画像取得部10より取得した画像のシルエット画像から中心線を推定する際には、手や足などの部位が胴体に隠れた場合、姿勢を推定できない。ところが、本発明のシステムでは、フレーム間の移動量を推定する手法と組み合わせて利用するため、処理に適したフレームだけを選択できれば良い。以下の手順で中心線の推定を行う。
【0021】
1)中心線が抽出しやすい姿勢のシルエット画像を予め選択してシステムに記憶しておく。このときに、シルエット画像に対応した人体モデルの姿勢パラメータも与えておく。姿勢パラメータは後述する手法により姿勢を微調整することができるので、大まかな値で構わない。
2)図8(a)(i)および(ii)のような、画像取得部10より取得した低解像度の入力画像系列で、あらかじめシステムに記憶してあるシルエット画像とのマッチングを行い、姿勢が類似しているフレームを選択する。
3)選択したシルエット画像では、人体モデルの大まかな姿勢が分かっているため、画像面410上に各パーツの領域を投影することができる。それぞれの領域内のシルエットを切り出して、主軸を求めて中心線とする。図8(b)(i)および(ii)は入力画像に人体モデルを当てはめ、各パーツの中心線を抽出し、表示した画像を示す。
【0022】
上記の手法より、抽出した中心線を利用して、3D線分Pと、それに対応する画像面410上での2D観測線分Q’の組lを求めることができ、後述する手法により人体モデルの正確な初期位置の推定を行うことができる。
【0023】
(初期姿勢の調整)
各パーツの姿勢aが正確な場合は、観測画像から得られた画像面410上の2D観測線分Q’とカメラの原点Oとが作る平面Mの上に3D線分Pが含まれる。ところが各パーツの姿勢aに誤差がある場合は、図7(a)のように、画像面410上に表示される線分Q’とカメラの原点Oとが作る平面Mと3D線分Pの間に距離が生じる。この距離の最短距離を、予測誤差h(a,l)とし、以下の式のように表す。
【数27】
JP0004695275B2_000009t.gifh(a,l)は2×1のベクトルである。Rはrから導出される3×3の回転行列である。また、nは面Mの単位法線ベクトル
【数28】
JP0004695275B2_000010t.gifである。aに誤差がない場合は、h(a,l)=0となり、図7(b)のように画像面410上の2D予測線分Qが2D観測線分Q’と重なる。そして2D観測線分Q’とカメラの原点が作る平面の上に3D線分Pが含まれるようになる。このときの3D線分Pの姿勢aが画像面410上に表示されている2D観測線分Q’に対応しているということになる。h(a,l)は非線形なので、観測値l=^lと推定値a=^ai-1のまわりに1次テーラー展開をして線形近似する。
【数29】
JP0004695275B2_000011t.gifただし∂h/∂a,∂h/∂lは偏微分を表す。これらの偏微分係数は、以下のカルマン・フィルタを適用して人体モデルの各パーツの姿勢a=[r,d]の最適値を求める際に利用する。
【0024】
対応付けがついた2D観測線分Q’と3D線分Pの誤差h(a,l)が最小になるように、人体姿勢aを補正し、位置の誤差分布σxiを減少させる。直前に示したh(a,l)の線形近似式をゼロとおいて書き直すと、次のような観測方程式が得られる。
【数30】
=Ha+ν
ただし、
【数31】
JP0004695275B2_000012t.gifである。ここでνの分散Bは次のように求める。
【数32】
JP0004695275B2_000013t.gif
【0025】
以上の観測方程式より、人体パーツの姿勢xの2乗誤差を最小にする推定値は、カルマン・フィルタで与えられる。
【数33】
JP0004695275B2_000014t.gif人体姿勢aと誤差分布σは、新しい線分の対応付けが行われるたびに更新される。以上の姿勢推定を人体の各部位に適用することで、人体モデルの初期姿勢を推定する。本発明のシステムでは、胴体の姿勢を最初に求めて、上腕、上脚、下腕、下脚と胴体に近い順番に中心線とのマッチングを行い、姿勢の推定を行う。
このようにして、図8(a)(i)および(ii)の入力画像に初期姿勢を推定し、図8(c)(i)および(ii)のように人体モデルを重ね合わせた画像を得ることができる。
【0026】
(2D、3D線分の対応付け)
上述の手法では、シルエット画像のマッチングにより、抽出した中心線を利用して、3D線分Pと対応する2D観測線分Q’の組lが求まったとして説明した。しかし、撮影環境内に中心線として抽出可能な複数の線分がある場合、1つの3D線分に対して複数の2D線分の候補があることとなる。そこで以下に示す2つの手法を併用して対応付けを行う。
まず2D画像面410上で見たときに、2D観測線分Q’に射影したときに射影像が2D観測線分Q’と重なる線分を候補として選択する。次に、推定値の誤差分布と、2D、3D線分の誤差分布を考慮に入れて、統計的に一致すると判定できる線分を選択する。
【0027】
1)2次元画面上での対応付け
図7を用いて2次元画像面410上で対応付けを行う手法を示す。まず、図7(a)のように、3D線分Pを画面上に投影して、2D予測線分Q=(q,q)を求める。また、観測画像から2D観測線分Q’=(q’,q’)を得る。2D観測線分Q’に対して射影した2D予測線分Qの射影像が重複領域をもつ場合は、対応の候補として選択する。重複領域の判定方法としては、2D予測線分Qを2D観測線分Q’に射影したときに、qあるいはqのどちらかの点がQ’の内部にあれば、2D予測線分Qの射影像が2D観測線分Q’に重なっていると考えることができる。まず、qをQ’に射影した場合の座標cは、Q’に沿う単位方向ベクトルを
【数34】
m=N[q’-q’](N[ ]はベクトルの正規化を表わす)
とすると、
【数35】
c=q’+m・(q-q’)m
である。そして、cがQ’の内部に含まれる条件は、
【数36】
(c-q’)・(c-q’)<0
となる。この操作をq,q,q’,q’に関して行い、上記の条件を満たさない線分は棄却する。
【0028】
2)誤差分布を考慮に入れた対応付け
人体姿勢の誤差分布σxiと、2D,3D線分の誤差分布σliを使ってχ検定を行い、統計的に一致しないと考えられる線分を棄却する。ここでは、2D-3D線分が一致していると仮定して、仮説検定を行う。人体姿勢a=[r,d]と観測値l=(P,Q’)の誤差分布を、正規分布σai~N(0,P),σli~N(0,L)と仮定する。h(^ai-l,^l)の1次、2次統計量は、
【数37】
JP0004695275B2_000015t.gif【数38】
JP0004695275B2_000016t.gifとなる。これよりマハラノビス距離kを次のように求めることができる。
【数39】
JP0004695275B2_000017t.gifh(^ai-1,^l)の誤差分布はh(^ai-1,^l)~N(0,Z)であるため、k(^ai-1,^l)~χ(ζ)となる(ただしζ=Rank(Z))。χ(ζ)分布から、確率に基づくしきい値を設置することができる。例えばk(^ai-1,^l)<9.21は、Zがランク2(ζ=2)のときに99%の線分が受け付けられることを意味している。しきい値以上の線分は、統計的に一致すると考えられないため、棄却することができる。複数の線分が候補として残った場合は、k(^ai-1,^l)の距離値が最小のものを選択する。
以上の2つの手法を併用して、2D予測線分Qが2D観測線分Q’に一番近い3D線分Pと画像面410上で対応する2D観測線分Q’の組l=(P,Q’)を求めることができる。
なお、上述の人体モデルの初期姿勢は、ユーザーが人体モデルの姿勢を推定して画像面に投影し、入力画像に重ね合わせて当てはめることによりで求めてもよい。
【0029】
<隠蔽箇所の復元>
画像生成部40で行っている隠蔽箇所の復元処理を、以下に詳細に説明する。
図9は上述の手法で、人体モデルにテクスチャ・マッピングを行い、撮影位置とは異なる視点位置から見た例を示す図である。図9(a)の2次元の画像より、人物の姿勢を推定することができると、この姿勢における人体パーツの3次元モデル上の輝度分布を求めることができる。顔、皮膚、衣服等の輝度情報を、3次元モデル上のテクスチャとして蓄積する。このように人物テクスチャをマッピングした3次元モデルから、従来のCGモデルをレンダリングするのと同じ手法で、自由な視点位置から見た画像を生成することができる。
【0030】
しかし、図9(b)からも分かるように、1台のテレビカメラで撮影した画像からでは、人物の全身像の輝度情報を得ることができないという問題が起こる。例えば、図9(a)のようにカメラに対して前に向いている人物を撮影した場合は、人物の背後が隠蔽されていて撮影できない。そのため、図9(b)のように異なる方向から見た場合に、全身像を表示することができない。
この問題を解決するため、画像生成部40では、人体モデルを利用した復元手法を用いている。隠蔽部分を復元する手法としてはいくつかあるが、例として2つの手法を説明する。
【0031】
▲1▼入力画像から得られた輝度情報の利用による復元
入力画像から得られた輝度情報を利用する方法としては、様々なものがあるが、ここでは腕や足などの人体パーツの対称性を利用した方法を述べる。
図10は、入力された画像中の人体パーツの対称性から輝度情報を補間する手法を説明するための図である。図10に示すように、体軸を垂直に切ってみたとき(図10(a)参照)に、画像から得られた輝度値で点対称の位置にある隠蔽部分の輝度値を埋める(図10(b)参照)ことで補間して全体の輝度値を得る(図10(c)参照)。
このときに、点対称の補間では求まらず、隙間になっている箇所や、部分的に空白になっているところは、近傍の輝度値を参照して、スプライン補間などの手法で輝度値を補間する。
なお、より高度な手法として、入力画像から洋服の模様(テクスチャ)を分析して、隠蔽部分に張り付ける等の補間とすることもできる。
【0032】
▲2▼CGの生成による復元
頭髪のように形状が予測できるものに関してはCGで補間することができる。頭髪の色は、画像中の輝度値を参照して決定する。図11はCGで頭髪を生成した例を示す図である。図11(a)は、人体モデルに頭髪を張り付けたところである。この頭髪に重力をかけるという計算をすることで、図11(b)のように頭髪を頭部にフィッティングすることができる。図11(c)は人物が歩いた場合の頭髪の動的な変化をシミュレートした例を示したものである。
【0033】
<人物画像とCG画像の合成>
画像生成部40で行っている、人物とCG画像の合成処理について、以下に詳細に説明する。画像生成部40では、推定した人物の3次元姿勢を利用してCG画像を生成することができるため、入力画像とは異なる衣服CGや頭髪CGを人物と合成することも可能である。
図12はCGによる衣服の例を示す図である。以下に、図12に示すような衣服CGを人物と合成する例で説明する。
図12(a)は衣服を生成したところである。この衣服を人体の3次元モデルに衣服モデルを着せる(重ね合わせる)。まず、モデルと衣服画像の衝突計算を行うことで、図12(a)で示すような生成した衣服画像から、人体モデルの形状に合わせた衣服画像を生成する。衣服と人体モデルの衝突計算は、従来から提案されている手法を利用する。その結果、図12(b)のように衣服画像が人物の3次元形状にフィッティングする。次にフレーム間の人体の動作に合わせて、衣服のダイナミックな動きをシミュレートする。人体の動作情報は、上述の手法で推定した値を利用する。また、衣服画像のシミュレーション手法は、従来から提案されている手法を利用する。図12(c)は、歩行動作に合わせて衣服シミュレーションを行った例である。
このようにして得られた衣服モデルと人体モデルを同時にレンダリングすることで、合成した映像が得られる。図13は衣服CGを合成した例を示す図である。図13(b)は、上記の処理を行って図13(a)のような入力画像の人物に衣服CGを合成した画像を示す図である。
【0034】
<モデルに基づく人物動画像の編集>
これまで説明したように、画像生成部40では、人物の動作推定と隠蔽箇所の復元をする手法により、人体の3次元モデルと、顔、衣服などの人物テクスチャを得ることができる。
その上、画像生成部40では、人体モデルの各関節の角度を変更するだけで、様々な姿勢を持った人物画像を生成することができる。これについて、以下に詳しく説明する。
【0035】
(異なる姿勢の生成)
図14は人体モデルを動かして異なる姿勢に変更した例を示す図である。図14(a)は、立っている人物画像から得られる人体モデルである。このような入力画像から得られる人体モデルの各関節の角度を変更することにより、例えば、左手を前に突き出したようにした図14(b)や、左手をあげて膝をついているようにした図14(c)の画像を生成することができる。図15は入力画像から得られた人物の人体モデルの姿勢を変形したものを示す図である。図15(a)のような人物画像を入力し、この画像から得た人体モデルの関節の角度を変える。関節の角度を変えた人体モデルにテクスチャをマッピングし、最終的に図15(b)のように異なる姿勢の人物画像に変更できる。
【0036】
(動作の物理特性の変更)
人体モデルに物理特性を変更した動きを与えることで、入力画像とは異なる動きをしている人物動画像を生成することができる。動作の物理特性の変更は、人体モデルの質量や慣性モーメントを変更して、物理シミュレーションを行うことで得られる。例えば、映像中の人物が歩行動作をしている場合、歩いている速さを変えたり、重い荷物を持っているような動作に変更することに利用する。
【0037】
(異なる動き情報の当てはめ)
人体モデルの関節角を動かすときに、異なる人物の動きを計測した結果を当てはめることもできる。例えば、あらかじめマリリン・モンローの歩き方を映画の中から計測しておく。そして、その計測した歩き方を図15に示すような入力した女性の映像に対して適用することにより、例えばマリリン・モンローの歩き方で動かすことができる。
【0038】
(部分的な人物テクスチャの張り替え)
本手法では、顔、衣服などの人物テクスチャとの対応が取れているため、顔だけを異なる人物に差し替えるなどの、画像の構造を利用したビデオ編集を行うことができる。
以上のように本システムでは、ビデオ映像から人物画像を生成するため、人物CGを生成するときに一般的に必要となる複雑な作業を省略して、リアルな人物動画像を容易に生成することができる。そして、実在する俳優のビデオ映像から人物CGを生成できるため、例えば、映画の制作現場において、危険なスタントシーンを撮影するときに、主演している俳優が演技をしているように見せることができる。また、コマーシャルフィルム(CM)の撮影において、過去の有名な人物を登場させて、他の俳優と競演させることができる。
【0039】
<その他の実施形態>
(動画像データベース)
図16は本発明を動画像データベースに応用した場合の機能構成を示す図である。図1の構成と同様であるが、動作推定部20で人物動画像を人体の姿勢角と人物テクスチャに分解したデータを格納しておく蓄積部36と、蓄積部36より与えられた条件に一致するデータを検索して取出し、画像生成部40にデータを渡す検索部38を備えている。
ビデオ編集においては、より自由度の高い人物画像の編集が望まれている。例えば、既に撮影した映像中の人物を、異なるカメラアングルから見た場合に変更したり、衣服や髪型の変更、姿勢の変更を行うことができれば、ポスト・プロダクションの作業をより効果的に行うことができる。そこで本発明を応用して、動画像データベースに映像素材を蓄積しておき、簡便に検索することで映像素材を再利用することができる。
【0040】
具体的な実現手段として、本システムの画像取得部10からとりこんだ映像を動作推定部20によって動作パラメータと人物テクスチャを求め、それらを蓄積部36に蓄積する。一方、検索部38は「人物が歩いているシーン」「座っているシーン」等の人物の動作を利用した検索条件を与え、検索を行い、検索条件に該当する動作パラメータを取出すことができる。また、本システムでは、人物テクスチャを分離して蓄積しているため、「赤い洋服を着た人物が写っているシーン」のように、画像の構造を検索条件として利用した検索も可能である。もちろん検索条件に該当する人物テクスチャも取出すことができる。
動画像データベースである蓄積部36から検索部38が取出した動作パラメータと人物テクスチャは、画像生成部40において、カメラアングルを変更したり、衣服や髪型の変更、姿勢の変更を行うことができる。
【0041】
上述のようにビデオ編集において、既に撮影した映像中の人物を、異なる視点から見た場合に変更したり、衣服や髪型の変更、姿勢の変更を行うことができる。そのため、ポスト・プロダクションの作業をより効果的に行うことができる。
なお、これまでに述べたシステムを実施するためのコンピュータ・プログラムを格納した記録媒体から読み取ることにより、パソコンやワークステーション、複数のコンピュータ・システム上に本発明のシステムを実装することができる。また、プログラムをインターネットのような通信回線を介して、取得することにより、本システムをコンピュータ・システムに実装することもできる。
【0042】
【発明の効果】
人体の3次元モデルを利用した動画像処理の適用により、リアルな人物CGを容易に生成することができ、ビデオ映像から人物の動作情報と輝度情報を取得することで、リアルな人物CGを容易に生成することができる。
そのため、ビデオ映像中の人物画像に対して、自由な視点位置から見たり、異なる動作に変更するなどの高度な操作を行うことが可能になる。また、人物のような複雑な被写体に対して、衣服や髪型などCGを合成することができる。
さらに、多様な姿勢を持つ人物画像を、関節角の変更で生成できるため、動画像圧縮の手段としても利用することができる。
【図面の簡単な説明】
【図1】 モデルに基づく人物動画像生成システムの機能構成を示す図である。
【図2】 ビデオ映像に本発明の処理を適用した例を示す図である。
【図3】 ビデオ映像に本発明の処理を適用した例を示す図である。
【図4】 ビデオ映像に本発明の処理を適用した例を示す図である。
【図5】 人体モデルを示す図である。
【図6】 カメラ座標系およびワールド座標系と人体モデルの関係を示す図である。
【図7】 画面上の線分の関係と人体パーツとの関係を示した図である。
【図8】 人体モデルの初期位置を推定するまでの処理の過程を示す図である。
【図9】 撮影位置とは異なる視点位置から画像を見た例を示す図である。
【図10】 入力された画像中の人体パーツから輝度情報を補間する手法を示す図である。
【図11】 CGで頭髪を生成した例を示す図である。
【図12】 CGの衣服シミュレーションの例を示す図である。
【図13】 衣服CGを合成した実験例を示す図である。
【図14】 人体モデルを動かして異なる姿勢に変更した例を示す図である。
【図15】 入力画像から得られた人物の人体モデルの姿勢を変形したものを示す図である。
【図16】 本発明を動画像データベースに応用した場合の機能構成を示す図である。
【符号の説明】
10 画像取得部
20 動作推定部
36 蓄積部
38 検索部
40 画像生成部
50 画像表示部
300 人体モデル
310 頭部
315 胴体
322 右上腕
324 左上腕
332 右前腕
334 左前腕
342 右腿
344 左腿
352 右膝下
354 左膝下
410 画像面
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11
【図13】
12
【図14】
13
【図15】
14
【図16】
15