TOP > 国内特許検索 > 画像通信装置 > 明細書

明細書 :画像通信装置

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第6534120号 (P6534120)
公開番号 特開2017-022600 (P2017-022600A)
登録日 令和元年6月7日(2019.6.7)
発行日 令和元年6月26日(2019.6.26)
公開日 平成29年1月26日(2017.1.26)
発明の名称または考案の名称 画像通信装置
国際特許分類 H04N   7/14        (2006.01)
H04N   5/232       (2006.01)
H04R   1/40        (2006.01)
H04R   3/00        (2006.01)
FI H04N 7/14
H04N 5/232 290
H04N 5/232 300
H04R 1/40 320Z
H04R 3/00 320
請求項の数または発明の数 5
全頁数 14
出願番号 特願2015-139768 (P2015-139768)
出願日 平成27年7月13日(2015.7.13)
審査請求日 平成30年6月26日(2018.6.26)
特許権者または実用新案権者 【識別番号】304023318
【氏名又は名称】国立大学法人静岡大学
発明者または考案者 【氏名】川人 祥二
【氏名】香川 景一郎
個別代理人の代理人 【識別番号】100088155、【弁理士】、【氏名又は名称】長谷川 芳樹
【識別番号】100124800、【弁理士】、【氏名又は名称】諏澤 勇司
審査官 【審査官】松元 伸次
参考文献・文献 特開2016-039600(JP,A)
特開2004-193962(JP,A)
特開2011-097447(JP,A)
特開2010-154259(JP,A)
特表平08-505745(JP,A)
特開平07-320031(JP,A)
特開2001-136501(JP,A)
調査した分野 H04N5/222-5/257
7/10
7/14-7/173
7/20-7/56
21/00-21/858
H04R1/20-1/40
3/00-3/14
特許請求の範囲 【請求項1】
画面に沿って配置された複数の撮像用カメラと、
前記画面に対する通話者の位置に関する位置情報を検出する位置検出部と、
前記画面に対する前記通話者の向きに関する方向情報を検出する方向検出部と、
前記位置情報と前記方向情報とに基づいて、前記通話者の画像を前記複数の撮像用カメラによって取得された複数の画像の中から選択し、選択した前記通話者の画像と前記複数の画像とを合成して合成画像を生成する画像合成部と、
前記合成画像と前記複数の撮像用カメラによって取得された前記複数の画像とのうちのいずれかを送信する画像送信部と、
前記通話者の通信相手である対話者側の画像を基に生成された合成画像を前記画面に表示する画像表示部と、
を備え
前記画像合成部は、前記位置情報によって特定される前記通話者の位置から前記方向情報によって特定される方向に伸ばした線上に最も近い前記撮像用カメラの画像を前記通話者の画像として選択する、
像通信装置。
【請求項2】
画面に沿って配置された複数の撮像用カメラと、
前記画面に対する通話者の位置に関する位置情報を検出する位置検出部と、
前記画面に対する前記通話者の向きに関する方向情報を検出する方向検出部と、
前記位置情報と前記方向情報とに基づいて、前記通話者の画像を前記複数の撮像用カメラによって取得された複数の画像の中から選択し、選択した前記通話者の画像と前記複数の画像とを合成して合成画像を生成する画像合成部と、
前記合成画像と前記複数の撮像用カメラによって取得された前記複数の画像とのうちのいずれかを送信する画像送信部と、
前記通話者の通信相手である対話者側の画像を基に生成された合成画像を前記画面に表示する画像表示部と、
前記対話者の画面に対する位置に関する位置情報を取得する情報取得部と
を備え、
前記画像合成部は、前記対話者の前記位置情報に基づいて、前記合成画像を補正する、
像通信装置。
【請求項3】
前記画像合成部は、前記画面を挟んだ空間上に前記対話者の位置と前記通話者の位置とを反映させた場合に、前記対話者と前記通話者とを結んだ線上に最も近い前記撮像用カメラの画像を前記通話者の画像として選択するように前記合成画像を補正する、
請求項記載の画像通信装置。
【請求項4】
前記位置検出部は、画面に沿って配置された距離画像を取得するカメラを含む、
請求項1~のいずれか1項に記載の画像通信装置。
【請求項5】
前記方向検出部は、複数配列された指向性マイクを含む、
請求項1~のいずれか1項に記載の画像通信装置。
発明の詳細な説明 【技術分野】
【0001】
本発明は、双方向で画像を用いて通信する画像通信装置に関する。
【背景技術】
【0002】
近年、会議や個人的な通話を行う際に、双方向で画像を用いて通信するテレビ電話システムを使用することが一般的になってきている。複数のユーザ同士でテレビ電話システムを使用する際には、広い視野で画像を取得することが求められるため、表示画面の周辺に複数のカメラを配置する構成が用いられている。その際、複数のカメラで取得された画像が相手側のテレビ電話システムに送信される。
【0003】
一方、複数の画像を合成して1つの合成画像を得る技術としては、下記特許文献1,2に記載のものが知られている。このような技術によれば、複数のカメラで取得した複数の画像を高精度につなぎ合わせて合成することができる。
【先行技術文献】
【0004】

【特許文献1】特開2011-124837号公報
【特許文献2】特開2014-86097号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した従来の画像合成技術をテレビ電話システムに適用しただけでは、複数のユーザが自由に動き回った場合に、通話者同士で違和感のない合成画像を得ることは困難である。例えば、合成画像における通話者の画像が様々な方向から撮像されることになり、コミュニケーションが取りづらい状況になりやすい。
【0006】
そこで、本発明は、上記課題に鑑みて為されたものであり、ユーザ間でのコミュニケーション時に違和感のない合成画像を得ることが可能な画像通信装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明の一形態にかかる画像通信装置は、画面に沿って配置された複数の撮像用カメラと、画面に対する通話者の位置に関する位置情報を検出する位置検出部と、画面に対する通話者の向きに関する方向情報を検出する方向検出部と、位置情報と方向情報とに基づいて、通話者の画像を複数の撮像用カメラによって取得された複数の画像の中から選択し、選択した通話者の画像と複数の画像とを合成して合成画像を生成する画像合成部と、合成画像と複数の撮像用カメラによって取得された複数の画像とのうちのいずれかを送信する画像送信部と、通話者の通信相手である対話者側の画像を基に生成された合成画像を画面に表示する画像表示部と、を備える。
【0008】
上記形態の画像通信装置によれば、画面に対する通話者の位置に関する情報が検出されるとともに、画面に対する通話者の向きに関する情報が取得され、それらの情報を基に画面に沿って配置された複数の撮像用カメラによって取得された画像の中から通話者の画像が選択され、その画像と複数の撮像用カメラによって取得された複数の画像とを用いて合成画像が生成される。複数の撮像カメラによって取得された画像又は合成画像は対話者側に送信され、対話者側の画像を基に生成された合成画像が画面に表示される。このような構成により、通話者の位置及び向きを基に対話者にとってコミュニケーション時に違和感のない通話者の画像を合成画像に含ませて表示させることができる。その結果、対話者と通話者との円滑なコミュニケーションを実現することができる。
【0009】
ここで、画像合成部は、位置情報によって特定される通話者の位置から方向情報によって特定される方向に伸ばした線上に最も近い撮像用カメラの画像を通話者の画像として選択する、こととしてもよい。こうすれば、通話者の画像を正対した画像として選択することができ、対話者にとってコミュニケーション時に違和感のない通話者の画像を合成画像に含ませて表示させることができる。その結果、対話者と通話者との円滑なコミュニケーションを的確に実現することができる。
【0010】
また、対話者の画面に対する位置に関する位置情報を取得する情報取得部をさらに備え、画像合成部は、対話者の位置情報に基づいて、合成画像を補正することとしてもよい。この場合、対話者と通話者との位置関係を基に対話者にとってコミュニケーション時に違和感のない通話者の画像を合成画像に含ませて表示させることができる。その結果、対話者と通話者との円滑なコミュニケーションを的確に実現することができる。
【0011】
また、画像合成部は、画面を挟んだ仮想空間内に対話者の位置と通話者の位置とを反映させた場合に、対話者と通話者とを結んだ線上に最も近い撮像用カメラの画像を通話者の画像として選択するように合成画像を補正することとしてもよい。この場合には、対話者に対して通話者を正面から見た画像を合成画像として表示させることができる。その結果、対話者に対して、仮想空間内での実際の対話時に近い通話者の画像を表示させることができる。
【0012】
また、位置検出部は、画面に沿って配置された距離画像を取得するカメラを含んでいてもよいし、方向検出部は、複数配列された指向性マイクを含んでいてもよい。この場合には、通話者の画面に対する位置或いは向きに関する情報を効率的に取得することができる。
【発明の効果】
【0013】
本発明によれば、ユーザ間でのコミュニケーション時に違和感のない合成画像を得ることができる。
【図面の簡単な説明】
【0014】
【図1】本発明の好適な実施形態に係る画像通信装置の構成を示す斜視図である。
【図2】図1の撮像用カメラ9の視野をスクリーン3に沿って上方から見た平面図である。
【図3】図1の撮像用カメラ9及び測距用カメラ11の視野をスクリーン3に沿って側面から見た側面図である。
【図4】図1の画像処理装置7の機能構成を示すブロック図である。
【図5】図4の画像選択部25による画像選択の手法を示す概念図である。
【図6】図4の画像合成部27による合成画像の生成のイメージを示す図である。
【図7】図1の画像通信装置1による画像通信の動作手順を示すフローチャートである。
【図8】本発明の変形例にかかる撮像用カメラ9及び測距用カメラ11の構成を示す側面図である。
【図9】本発明の変形例にかかるカメラ35の構成を示す側面図である。
【図10】本発明の変形例における測距用カメラ11及び撮像用カメラ9の配置を示す斜視図である。
【図11】本発明の変形例における測距用カメラ11及び撮像用カメラ9の配置を示す斜視図である。
【図12】本発明の変形例における測距用カメラ11の配置を示す斜視図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しつつ本発明に係る画像通信装置の好適な実施形態について詳細に説明する。なお、図面の説明においては、同一又は相当部分には同一符号を付し、重複する説明を省略する。

【0016】
本発明の好適な一実施形態にかかる画像通信装置1は、遠隔地間で画像を送受信することによりコミュニケーションを行うための装置であり、この画像通信装置1を一組備えることにより、遠隔地の複数のユーザ間で画像を参照しながらコミュニケーションするテレビ電話システムを構成する。

【0017】
図1には、本実施形態にかかる画像通信装置1の概略構成を示している。同図に示すように、画像通信装置1は、複数のユーザUに対向するように配置されたスクリーン(画面)3と、スクリーン3の前面に画像光を投影することにより画像を表示させる画像表示装置(プロジェクタ、画像表示部)5と、画像処理を実行する画像処理装置7とを備える。この画像通信装置1は、同一の構成の装置(以下、「対向装置」と呼ぶ。)と通信ネットワークを介して接続され、画像通信装置1によって生成された合成画像を対向装置に向けて送信するとともに、対向装置によって生成された合成画像を受信し、その合成画像をスクリーン3に表示する。

【0018】
スクリーン3には、スクリーン3の前面(画像表示面)側の画像を撮像する複数の撮像用カメラ9と、スクリーン3の前面側の距離画像を取得するための複数の測距用カメラ11と、近赤外のパルス光を発するパルス光源13と、複数のユーザUの中から発声中のユーザである通話者の方向を検出する複数の指向性マイク15とが取り付けられている。これらの測距用カメラ11及びパルス光源13は、スクリーン3に対する通話者の位置に関する位置情報を検出する位置検出部として機能し、指向性マイク15は、スクリーン3に対する通話者の向きに関する方向情報を検出する方向検出部として機能する。

【0019】
撮像用カメラ9は、スクリーン3の前面に沿って二次元状に等間隔で配列された画像センサであり、スクリーン3に形成された微小穴を通じてスクリーン3の前面側の画像が撮像可能なようにスクリーン3の後面側に固定されている。例えば、撮像用カメラ9は、スクリーン3の長辺方向に沿って5個で等間隔に配列され、その5個の配列が短辺方向に2列並べられた構成を有する。

【0020】
測距用カメラ11は、スクリーン3の前面の中央の上端に2つ並んで固定されており、この測距用カメラ11の間にパルス光源13が配置されている。測距用カメラ11は、パルス光源13によって発せられた光パルスがターゲットに当たって戻る時間を各画素毎にリアルタイムで測定することにより各画素毎の距離情報を含む距離画像を取得するTOF(Time of Flight)方式の公知の画像センサである。測距用カメラ11およびパルス光源13の動作が画像処理装置7によって制御されることにより、リアルタイムで距離画像が取得される。

【0021】
指向性マイク15は、スクリーン3の前面の下端に複数並んで固定されており、スクリーン3の前面側のユーザUを含む音源から発せられる音声信号を検出する。これらの指向性マイク15で検出された音声信号が画像処理装置7で処理されることにより、スクリーン3の面に対するユーザUを含む音源からの音の到来方向がリアルタイムで検出される。この検出方法としては、公知のマイクロフォンアレイを用いた音の到来方向の算出方法(例えば、相関関数法、遅延和アレイ法)が用いられる。

【0022】
図2は、撮像用カメラ9の視野をスクリーン3に沿って上方から見た平面図、図3は、撮像用カメラ9及び測距用カメラ11の視野をスクリーン3に沿って側面から見た側面図である。これらの図に示すように、撮像用カメラ9は、スクリーン3からの距離が所定範囲の空間Sの像を撮像可能なように焦点距離および画角が設定されている。さらに、撮像用カメラ9は、空間S内においては、上下および左右に隣り合う撮像用カメラ9の視野Vが重なり合うようにそれらの光軸および画角が設定されている。これにより、撮像用カメラ9によって取得された画像を合成して合成画像を生成する際に、画像に捉えられた物体の不連続性を低減できる。また、測距用カメラ11は、空間S内での死角の発生を低減するために、撮像用カメラ9に比較して広い視野Vを有するようにその画角が設定されるとともに、その光軸は下方に向けられている。

【0023】
次に、図4を参照しながら、画像処理装置7の構成について説明する。図4は、画像処理装置7の機能構成を示すブロック図である。画像処理装置7は、物理的には、パーソナルコンピュータ、画像処理デバイス等のデータ処理装置によって構成され、CPU等の演算処理回路、RAM、ROM等のメモリ、ハードディスク装置等のデータ記憶装置、及び通信デバイスを内蔵している。そして、画像処理装置7は、機能的構成要素として、図4に示すように、位置情報取得部21、位置検出部23、方向検出部24、画像選択部25、画像合成部27、画像送信部29、及び画像受信部(画像表示部)31を含む。

【0024】
画像処理装置7の位置検出部23は、複数の測距用カメラ11によって検出された距離画像と、複数の撮像用カメラ9によって取得された複数の画像とを用いて、スクリーン3に対する通話者である複数のユーザUの位置に関する位置情報を検出する。具体的には、位置検出部23は、複数の撮像用カメラ9によって取得されたそれぞれの画像に公知の顔認識処理を施すことにより、それぞれの画像上における複数のユーザUの顔位置を検出する。画像からユーザUの顔を認識する際には機械学習を用いた公知の顔認識の手法が用いられる。その後、位置検出部23は、画像上に認識したユーザUの顔位置と、その画像に対応する撮像用カメラ9のレンズの中心位置とを基にして、三次元空間内のその中心位置を始点としたユーザUの顔位置を通る直線の位置を特定する。さらに、位置検出部23は、複数の距離画像を合成して空間S内に位置する物体の3次元形状を示す合成距離画像(デプスマップ)を生成し、この合成距離画像と、決定したそれぞれのユーザUの顔位置に対応した直線を特定する情報とを用いることにより、複数のユーザUの顔のスクリーン3を基準とした3次元座標を位置情報として算出する。すなわち、位置検出部23は、合成距離画像中で人に形状が近似すると認識される物体のなかで上記直線と交差すると判断される物体を抽出し、その物体の3次元座標を、ユーザUの顔の3次元座標として算出する。また、位置検出部23は、検出した複数のユーザUの顔の3次元座標を方向検出部24及び画像選択部25に出力する。ここで、位置検出部23は、距離画像を合成しないで複数の距離画像を別々に処理することによってユーザUの顔の3次元座標を検出してもよい。

【0025】
方向検出部24は、指向性マイク15によって得られた複数の音声信号を基にスクリーン3の面に対する音源からの音の到来方向を連続して複数の音源について検出する。そして、方向検出部24は、検出した音の到来方向を基に、位置検出部23によって検出された複数のユーザUの顔の向きを、検出した複数の音源からの音の到来方向に等しいものとして推定し、複数のユーザUの顔の3次元座標と、それぞれのユーザUの顔の向きに関する方向情報とを画像選択部25に出力する。さらに、方向検出部24は、取得したユーザUの位置情報(3次元座標)を、対向装置に向けて送信する。

【0026】
位置情報取得部21は、対向装置から通話者の通信相手である対話者のスクリーンに対する位置に関する位置情報を受信(取得)する。この位置情報は、対向装置において画像通信装置1と同様にして通話者の顔の位置情報として得られたものである。詳細には、位置情報取得部21は、対話者の顔の対向装置側のスクリーンを基準とした3次元座標を取得する。

【0027】
画像選択部25は、位置検出部23によって検出された複数のユーザUごとに、撮像用カメラ9によって取得された複数の画像の中から、合成元の画像を選択する。例えば、顔の向きの検出されていないユーザUについては、そのユーザUに関して算出された3次元座標を基に、その3次元座標に最も近い撮像用カメラ9の画像を選択する。一方、顔の向きの検出されたユーザUについては、次のようにして画像を選択する。すなわち、方向検出部24から出力されたユーザUの顔の3次元座標及びそのユーザUの方向情報を基に、複数の画像の中から合成元の画像を選択する。図5は、画像選択部25による画像選択の手法を示す概念図である。同図に示すように、画像選択部25は、仮想空間内にスクリーン3の座標と撮像用カメラ9の座標とを設定し、さらに、スクリーン3を挟んだ仮想空間内に、スクリーン3の座標を基準に、位置検出部23によって検出された2人のユーザU,Uの3次元座標に対応する座標Pを反映させる。ここでいう仮想空間とは、通話者であるユーザU,Uとスクリーン3と撮像用カメラ9とを含む実空間にスクリーン3を挟んで対話者をその位置情報を基に仮想的に配置させた空間である。そして、画像選択部25は、仮想空間内でユーザUの座標PからそのユーザUの方向情報(例、スクリーン3に対する角度情報α)によって特定される方向に伸ばした線Lの位置を認識し、その線Lに最も近い位置に対応する撮像用カメラ9を選択する。図5の例によれば、左から3番目の撮像用カメラ9が選択される。ここで、ユーザUに対して選択される撮像用カメラ9としては、そのユーザUの顔の3次元座標が画角内に収まっている撮像用カメラに限られる。つまり、ユーザUに対する選択対象の撮像用カメラ9の数は、ユーザUのスクリーン3からの距離に依存する。

【0028】
また、画像選択部25は、上記のようにして得た撮像用カメラ9の選択結果を、位置情報取得部21によって取得された対話者の位置に関する位置情報を基に補正してもよい。そして、画像選択部25は、補正した選択結果を基に、複数の画像の中から合成元の画像を選択してもよい。この場合、画像選択部25は、仮想空間内に取得した対話者の3次元座標に対応する座標Pをさらに反映させる。そして、画像選択部25は、仮想空間内で対話者の座標PとユーザUの座標Pとを結んだ線Lの位置を認識し、その線Lに最も近い位置に対応する撮像用カメラ9をユーザUに対して選択するように、撮像用カメラ9の選択結果を補正する。図5の例によれば、左から4番目の撮像用カメラ9が選択される。その後、画像選択部25は、複数のユーザU,Uごとに選択した撮像用カメラ9の情報と、全ての撮像用カメラ9によって取得された画像とを画像合成部27にリアルタイムで出力する。

【0029】
図4に戻って、画像合成部27は、複数のユーザUごとに選択された撮像用カメラ9の情報を用いて、撮像用カメラ9によって取得された画像を合成して合成画像を生成する。このとき、画像合成部27は、背景に対応する部位については、スクリーン3上に2次元状に配列された撮像用カメラ9の画像をその配列に対応して並べるように組み合わせることによって合成画像を生成する。その際、画像合成部27は、合成距離画像を参照しながら、隣り合う撮像用カメラ9の2つの画像間の境界で互いに対応点が一致するように、すなわち、視差を補正するように画像の組み合わせの位置を調整する。また、画像合成部27は、このようにして作成した背景の合成画像に対して、複数のユーザUの画像を重ね合わせる。詳細には、ユーザU毎に、選択された撮像用カメラ9の画像からユーザUの顔を含む部位の画像を切り出し、合成画像上のユーザUの顔の3次元座標に対応する位置に切り出した画像を重ね合わせる。画像からユーザUの画像を切り出す際には、位置検出部23による合成距離画像を対象にしたユーザUの顔の3次元座標の探索結果が参照され、この3次元座標を切り出しの対象の画像上の座標に変換することによってユーザUの顔の画像位置が特定される。

【0030】
なお、画像の選択の単位は、適宜設定することができ、ユーザU全体の単位で画像を選択してもよいし、ユーザUの部位(顔、首、体等)の単位で画像を選択して切り出してもよい。ただし、ユーザUの部位単位で画像を切り出して重ね合わせる場合には、合成画像における像の不連続を防止するために、合成距離画像を参照しながら、重ね合わせる複数の画像間の境界で互いに対応点が一致するように、すなわち、視差を補正するように画像の重ね合わせの位置を調整することが好ましい。

【0031】
図6には、画像合成部27による合成画像の生成イメージが示されている。図6(a)~(c)には、それぞれ、図5に対応して左から2番目、真ん中、及び右から2番目の撮像用カメラ9によって取得された画像が示され、図6(d)には、それらの画像を用いて画像合成部27によって生成された合成画像が示されている。このように、ユーザUに関しては、図5のように、仮想空間内でユーザからその顔の向きの方向に伸びる線に最も近い真ん中の撮像用カメラ9の画像、すなわち、図6(b)の画像が選択され、その画像から切り出された画像Gが合成画像に合成される。一方で、顔の向きの検出されていないユーザUに関しては、ユーザUの位置に最も近い右から2番目の撮像用カメラ9の画像、すなわち、図6(c)の画像が選択され、その画像から切り出された画像Gが合成画像に合成される。

【0032】
再び図4に戻って、画像送信部29は、位置情報取得部21、位置検出部23、方向検出部24、画像選択部25、及び画像合成部27の処理が繰り返されることによって得られた時系列の複数の合成画像を、連続した動画像として対話者側の対向装置に送信する。また、画像受信部31は、対向装置から対話者の画像を基に生成された時系列の合成画像を連続して受信し、その時系列の合成画像を画像表示装置5に送出することによってスクリーン3に動画像として表示させる。

【0033】
上述した画像通信装置1による画像通信の動作手順を、図7を参照しながら説明する。図7は、画像通信装置1による画像通信の動作手順を示すフローチャートである。

【0034】
最初に、画像処理装置7において、ユーザUからの通信開始の指示が受け付けられると、画像通信処理が開始される(ステップS01)。そうすると、画像処理装置7の位置検出部23により、スクリーン3の前面側における複数の通話者であるユーザUの顔の位置が検出される(ステップS02)。次に、画像処理装置7の方向検出部24により、ユーザUの顔の向きに関する方向情報が推定される(ステップS03)。同時に、画像処理装置7の位置情報取得部21によって、対向装置から対話者のスクリーンに対する3次元座標の情報が取得される(ステップS04)。

【0035】
その後、画像処理装置7の画像選択部25により、複数のユーザUの顔の位置に関する位置情報と、複数のユーザUの顔の向きに関する方向情報とを用いて、ユーザU毎に、複数の撮像用カメラ9によって取得された画像の中から、合成元の画像が選択される(ステップS05)。そして、画像処理装置7の画像合成部27により、画像選択部25による選択結果を基に、複数の撮像用カメラ9によって取得された画像を合成することにより合成画像が生成される(ステップS06)。

【0036】
さらに、生成された合成画像は、その都度、画像処理装置7の画像送信部29によって対向装置に向けて送信される(ステップS07)。同時に、画像処理装置7の画像受信部31により、対向装置から合成画像が受信され、受信された合成画像はスクリーン3に表示される(ステップS08)。上記のステップS02~ステップS08の処理は、ユーザUからの通信終了の指示が受け付けられるまで繰り返されることにより(ステップS09)、遠隔地間でのリアルタイムでの画像通信が実行される。

【0037】
以上説明した画像通信装置1によれば、スクリーン3に対する通話者の位置に関する位置情報が検出されるとともに、スクリーン3に対する通話者の向きに関する方向情報が取得され、それらの情報を基に、スクリーン3に沿って配置された複数の撮像用カメラ9によって取得された画像の中から、通話者の画像が選択され、その画像と複数の撮像用カメラ9によって取得された複数の画像とを用いて合成画像が生成される。さらに、合成画像が対話者側に送信され、対話者側から受信した合成画像がスクリーン3に表示される。このような構成により、通話者の位置及び向きを基に対話者にとってコミュニケーション時に違和感のない通話者の画像を合成画像に含ませて表示させることができる。また、通話者にとってもコミュニケーション時に違和感のない対話者の画像を表示させることができる。その結果、対話者と通話者との円滑なコミュニケーションを実現することができる。

【0038】
具体的には、スクリーンを基準にした通話者の顔の位置および通話者の顔の方向を基に対話者にとってコミュニケーション時に違和感のない通話者の画像を合成画像に含ませて表示させることができる。その結果、対話者と通話者との円滑なコミュニケーションをより的確に実現することができる。特に、仮想空間内に通話者の位置を反映させて、その仮想空間内で通話者の位置から通話者の向きに伸ばした線上に最も近い撮像用カメラ9の画像を通話者の画像として選択するので、対話者と通話者との対話時に対話者に対して通話者を正面から見た画像を合成画像に反映しやすい。その結果、対話者に対して、仮想空間内での実際の対話時に近い通話者の画像を表示させることができる。

【0039】
また、スクリーンを挟んだ仮想空間内に対話者の位置をさらに反映させて、その仮想空間内で対話者の位置と通話者の位置とを結んだ線上に最も近い撮像用カメラ9の画像を通話者の画像として選択するように補正する。これにより、対話者に対して通話者を正面から見た画像を合成画像として表示させることができる。その結果、対話者に対して、仮想空間内での実際の対話時に近い通話者の画像を表示させることができる。

【0040】
また、位置検出部として測距用カメラ11とを含んでおり、方向検出部として指向性マイク15とを含んでいるので、通話者のスクリーン3に対する位置或いは方向に関する情報を効率的に取得することができる。

【0041】
本発明は、上述した実施形態に限定されるものではない。

【0042】
上記の実施形態においては、位置検出部としての測距用カメラ11と合成画像の合成元の画像を取得する撮像用カメラ9とを別々に配置していたが、これらはスクリーン3上の同一の場所に配置してもよい。図8は、本発明の変形例にかかる撮像用カメラ9及び測距用カメラ11の構成を示す側面図である。同図に示す変形例では、スクリーン3の穴部3aの後面側には、穴部3aを通過した光を受けるレンズ32およびダイクロイックミラー33が配置されている。このダイクロイックミラー33は距離画像生成用の近赤外光を透過すると同時に、撮像用カメラ9で検出する可視光を反射させる。さらに、このダイクロイックミラー33に対して穴部3aを通過した可視光の反射方向に隣接する位置には、撮像レンズ9b及び撮像素子9aを含む撮像用カメラ9が配置されている。また、ダイクロイックミラー33に対して穴部3aを通過した近赤外光の透過方向に隣接する位置には、撮像レンズ11b及び撮像素子11aを含む測距用カメラ11が配置されている。このような変形例によれば、撮像用カメラ9と測距用カメラ11との間で視野を確実に一致させることができるので、合成画像の生成時の視差の補正処理が簡素化できる。

【0043】
また、図9に示すように、撮像用カメラ9と測距用カメラ11とを一体化されたカメラで代用してもよい。同図に示す変形例では、スクリーン3の穴部3aの後面側に、穴部3aを通過した光を受けるレンズ35aと撮像素子35bとを含むカメラ35が配置されている。このカメラは、TOF方式による距離画像を生成する機能と、可視光を検出して通常の画像を生成する機能とを有する一体型の画像センサである。

【0044】
また、上記の実施形態においては、測距用カメラ11及び撮像用カメラ9の個数および配置は、様々変更されてもよい。図10~図11には、本発明の変形例における測距用カメラ11及び撮像用カメラ9の配置を示している。なお、これらの図において、指向性マイク15の図示は省略している。

【0045】
図10に示す変形例では、測距用カメラ11の個数を4個にし、それらをスクリーン3の上端と下端とに分けて配置するとともに、撮像用カメラ9をスクリーン3の短辺方向に1列分(合計5個)追加した構成を採用している。また、図11に示す変形例では、スクリーン3上で撮像用カメラ9と測距用カメラ11とが短辺方向及び長辺方向に沿って交互に配置された構成が採用されている。

【0046】
また、上記実施形態においては、測距用カメラ11は含んでいなくてもよい。図12には、本発明の変形例における撮像用カメラ9の配置を示している。なお、図12において、指向性マイク15の図示は省略している。

【0047】
図12に示す変形例では、スクリーン3には撮像用カメラ9のみが設けられている。そして、これらの撮像用カメラ9によって取得される画像を合成することで合成画像が生成される。また、これらの撮像用カメラ9は、複数のユーザUの顔の位置を検出する位置検出部としても機能する。すなわち、この変形例においては、画像処理装置7の位置検出部23は、隣接する2つの撮像用カメラ9の画像をステレオカメラの画像としてマッチング処理することにより距離画像を生成し、複数の撮像用カメラ9のペアによって得られた複数の距離画像を合成することで合成距離画像を生成する。

【0048】
また、上記実施形態においては、画像処理装置7の画像選択部25は、ユーザUの画像を選択する際に、ユーザUの位置に最も近い撮像用カメラ9の画像を選択していたが、このような処理には限定されない。すなわち、上記実施形態の画像選択部25は、ユーザUについては、そのユーザUに関して算出された3次元座標を基に、その3次元座標に最も近い撮像用カメラ9の画像を選択していた。これに対して、変形例としては、様々な画像の選択方法を採用してもよい。例えば、複数の撮像用カメラ9によって得られた画像、或いは測距用カメラ11によって得られた距離画像を用いて、ユーザUの顔の方向を検出し、その顔の方向に近い位置にある撮像用カメラ9の画像を選択してもよい。例えば、顔の方向は、ユーザUの口や目等の顔の部位の位置を特定してそれらの位置の関係を演算することによって検出される。また、さらなる変形例としては、撮像用カメラ9によって得られた画像、或いは測距用カメラ11によって得られた距離画像を用いて、ユーザUの視線方向を検出し、ユーザUの顔の位置から検出した視線方向に伸ばした視線方向ベクトル上から近い位置にある撮像用カメラ9の画像を選択してもよい。ユーザUの視線方向の検出の仕組みとしては、既存の技術(例えば、特許第4604190に記載の構成、特許第4517049に記載の構成)を用いることができる。このような変形例によれば、対話者にとって全てのユーザUとのコミュニケーションが容易な画像を表示させることができる。

【0049】
また、上記実施形態の方向検出部24は、指向性マイク15によって検出された音声信号を基にユーザUの顔の向きを推定していたが、ユーザUの顔の向きは次の方法によって検出してもよい。例えば、方向検出部24は、複数の撮像用カメラ9によって得られた画像、或いは測距用カメラ11によって得られた距離画像を用いて、画像処理によってユーザUの顔の向きを検出してもよい。このとき、顔の向きは、通話者の口や目等の顔の部位の画像上の位置を特定してそれらの位置の関係を演算することによって検出される。また、方向検出部24は、撮像用カメラ9によって得られた画像、或いは測距用カメラ11によって得られた距離画像を用いて、ユーザUの視線方向を検出し、その視線方向から顔の向きを推定してもよい。

【0050】
また、上記実施形態では通話者側の画像通信装置1が通話者の画像を含む合成画像を生成し、その合成画像を対向装置に送信していたが、複数の撮像用カメラ9の画像から合成画像を生成する機能は、対向装置側に具備されていてもよい。この場合、画像通信装置1の画像送信部29は、複数の撮像用カメラ9の画像と位置検出部23及び方向検出部24で検出された情報とを対向装置に送信する。

【0051】
また、通話者側の画像通信装置1と、その通信相手となる対話者側の対向装置とでは、スクリーンのサイズや、スクリーンで表示する画像の解像度は異なっていてもよい。また、通話者側の画像通信装置1と、その通信相手となる対向装置とでは、複数の撮像用カメラ9の配置及び数が異なっていてもよいし、測距用カメラ11の配置及び数が異なっていてもよい。このような場合は、画像通信装置1の画像合成部27は、合成画像を生成する際に、画像通信装置1のスクリーン3と対向装置のスクリーンとで区切られた仮想空間内でのユーザUの位置に対応する対向装置のディスプレイ上の位置にユーザUの画像が表示されるように、座標変換処理、画素補間処理、画像拡大処理、又は画像縮小処理を実行することが望ましい。
【符号の説明】
【0052】
1…画像通信装置、3…スクリーン(画面)、5…画像表示装置(画像表示部)、7…画像処理装置、9…撮像用カメラ(位置検出部)、11…測距用カメラ(位置検出部)、13…パルス光源、15…指向性マイク(方向検出部)、21…位置情報取得部、23…位置検出部、24…方向検出部、25…画像選択部(画像合成部)、27…画像合成部、29…画像送信部、31…画像受信部、35…カメラ、U,U,U…ユーザ(通話者)。
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10
【図12】
11