TOP > 国内特許検索 > 遠隔演奏のサウンド同期方式 > 明細書

明細書 :遠隔演奏のサウンド同期方式

発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2015-087682 (P2015-087682A)
公開日 平成27年5月7日(2015.5.7)
発明の名称または考案の名称 遠隔演奏のサウンド同期方式
国際特許分類 G10H   1/00        (2006.01)
FI G10H 1/00 Z
請求項の数または発明の数 3
出願形態 OL
全頁数 12
出願番号 特願2013-227786 (P2013-227786)
出願日 平成25年11月1日(2013.11.1)
新規性喪失の例外の表示 申請有り
発明者または考案者 【氏名】石橋 豊
【氏名】ミャ シトウ
出願人 【識別番号】304021277
【氏名又は名称】国立大学法人 名古屋工業大学
審査請求 未請求
テーマコード 5D378
Fターム 5D378QQ05
5D378QQ31
5D378QQ32
要約 【課題】ネットワークを介した仮想環境で、複数の地点で同時に行われる合奏におけるサウンドの高品質な同期方式を提供する。
【解決手段】ネットワークを介して分散した複数の仮想環境で同時に行われる合奏では、各地点の間で演奏を行う端末の通信遅延が発生する。各地点において自端末で発生するサウンドの出力を、他の地点の端末から自端末への通信遅延の最大値を最大通信遅延として、その値又はその値以下だけ遅らせる。最大通信遅延は、揺らぎを含めた通信遅延の回帰式より求めたローカルラグの最適値が良い。一方、他の端末から受信するサウンドの出力を、最大通信遅延からその通信遅延を引いた時間又はその時間以下の時間だけ遅らせる。
【選択図】図1
特許請求の範囲 【請求項1】
分散した仮想環境において、
各地点において自端末で発生するサウンドの出力を、
前記他の端末から前記自端末への通信遅延の最大値以下である最大通信遅延だけ遅らせ、
前記他の端末から受信するサウンドの出力を、
前記最大通信遅延から、
前記通信遅延を引いた時間以下の時間だけ遅らせることを特徴とするサウンド同期方式。
【請求項2】
前記通信遅延および前記最大通信遅延は、通信遅延にバッファリング時間を加えた値であることを特徴とする請求項1記載のサウンド同期方式。
【請求項3】
前記通信遅延および前記最大通信遅延は、前記通信遅延にバッファリング時間を加えた値以下であるローカルラグの最適値であることを特徴とする請求項1記載のサウンド同期方式。
発明の詳細な説明 【技術分野】
【0001】
本発明は、ネットワークを介した仮想環境で、複数の地点で同時に行われる合奏におけるサウンドの高品質な同期方式に関するものである。
【背景技術】
【0002】
ネットワークを介して複数の地点で行われる合奏では、通信遅延が地点間によって異なるだけでなく、通信遅延の揺らぎ(バラツキ)が存在するため、高品質なサウンド同期を行うためには、これらの問題を解決することが必要である。
従来、非特許文献1では、地点数が2の場合だけを扱っており、各地点で演奏する楽器のサウンド出力を、その地点から他の地点への通信遅延だけ遅らせ、他の地点から送られてくるサウンド情報は受信すると直ちに出力するようにして、サウンドの同期をとろうとしている。なお、各地点で発生するサウンドの出力を遅らせる時間をローカルラグと呼ぶ。また、通信遅延が常に一定で双方向に等しい場合だけを扱っている。
さらに、非特許文献2の端末間同期方式をサウンド同期に適用することが考えられる。この端末間同期方式は、複数の端末(地点)間でメディアの出力タイミングを揃えるものであり、端末間の通信遅延の最大値をローカルラグとし、他の端末から送られてくるメディアの出力は、その最大値から自端末への通信遅延を引いた時間の後に行うようになっている。
【先行技術文献】
【0003】

【非特許文献1】入江洋介、青柳滋己、高田敏弘、平田圭二、梶克彦、片桐滋、大崎美穂 「t-Roomのための遠隔合奏支援システムの構築」 情報処理学会研究報告 Vol.2009-DPS-141 No.23 Nov. 2009
【非特許文献2】P. Huang、Y. Ishibashi、N. Fukushima、and S. Sugawara 「QoE assessment of group synchronization control scheme with prediction in work using haptic media」 International Journal of Communications, Network and System Sciences (IJCNS) Vol.5, No.6, pp.321-331 June 2012.
【非特許文献3】Y. Ishibashi and S. Tasaka 「A synchronization mechanism for continuous media in multimedia communications」 Proc. IEEE INFOCOM pp.1010-1019 Apr. 1995
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のように、従来の方法では、非特許文献1のように、各地点におけるローカルラグの値を、その地点から他の地点への通信遅延に設定することは、通信遅延が2地点間で双方向に等しいときは良いが、異なる場合には、サウンドの同期は取れないという問題が生じる。
【0005】
この従来の方法を図8に示す。インターネットのようなIPネットワークでは、通信遅延は同一の2点間であっても方向によって異なるのが一般的であり、双方向に同じ場合だけを考えることは不十分である。また、通信遅延は一定であることはなく、時間とともに変化するのが一般的である。即ち、ローカルラグとして通信遅延を採用する際、図8に示す様に、一般的に端末1から端末2への通信遅延2と、端末2から端末1への通信遅延1が異なる。よって端末1を操作するユーザと端末2を操作するユーザ2が同時に演奏をした場合、ユーザ1は、自己の端末1を操作した音を、端末2への通信遅延2の後聞くと共に、他のユーザが端末2を操作した音を、端末2から端末1への通信遅延1の後聞くことになる。同様に、端末2を操作するユーザは、自己の端末2を操作した音を、端末1への通信遅延1の後聞くと共に、他のユーザが端末1を操作した音を、端末1から端末2への通信遅延2の後聞くことになる。このように音を2回聞くという問題がある。
端末1の端末2に対する通信遅延2を、端末1のローカルラグとする。また、端末2の端末1に対する通信遅延1を、端末2のローカルラグとする。
【0006】
端末の地点数が3以上になると、非特許文献1の手法が用いられるためには、3地点間の通信遅延が全て等しくなければならないが、一般的にこのようなことは考えられない。さらに、ローカルラグは、各地点におけるユーザのインタラクティブ性(楽器を演奏してから、自分の演奏したサウンドが聞こえるまでの時間に関係)を劣化させる。サウンド同期が実現されても、インタラクティブ性が低ければ、合奏そのものに対する総合的な品質は悪くなる可能性がある。
同様に、非特許文献2のように、地点間の通信遅延の最大値をローカルラグにとると、全ての地点においてインタラクティブ性が大きく劣化する可能性がある。
【0007】
これに対して本発明では、上記の問題点を解決するため、まず地点数が2の場合には、各地点におけるローカルラグの値を、他の地点からその地点までの一つの通信遅延にその一つの通信遅延内における遅延揺らぎ吸収のためのバッファリング時間を加えた値(以下では、これを「バッファ通信遅延」と呼ぶ。但し、二つ以上の通信遅延間の遅延揺らぎ吸収のためのバッファリング時間は含まない)以下の最適値に設定し、他の地点から受信するサウンドを、遅延揺らぎ吸収のためのバッファリング時間の後に出力する。この説明を図1示す。図1では、説明の簡単のため、遅延揺らぎ吸収用のバッファリング時間を0としている。
端末1で端末2に対して発生する通信遅延2を、端末2でのローカルラグとする。また、端末2で端末1に対して発生する通信遅延1を、端末1でのローカルラグとする。この点が従来と異なる。
【0008】
サウンド同期品質だけを考えれば、この最適値は、サウンドの出力遅延に等しくなるが、インタラクティブ性を考慮すると、バッファ通信遅延以下の値となる。これは、インタラクティブ性はローカルラグの値が大きくなると、これに応じて線形的に劣化するからである。
【0009】
ここで、ローカルラグの最適値については、合奏の内容(楽曲やテンポなど)に依存する可能性があるので、ユーザ体感品質(QoE: Quality of Experience)の主観評価において、様々な通信遅延に対してローカルラグの最適値を明らかにし、回帰分析によってローカルラグの最適値とバッファ通信遅延の関係式を求めた。そして、この関係式からローカルラグの値を決定した。なお、通信遅延揺らぎ吸収のためのメディア同期制御には、例えば、非特許文献3のVTR(Virtual-Time Rendering)アルゴリズムを適用する。このアルゴリズムでは、遅延揺らぎの大きさに応じて動的にバッファリング時間を変更する。従って、ローカルラグの値も、通信遅延とバッファリング時間の変動に伴い、動的に変化することになる。
【0010】
次に端末の地点数が3以上の場合には、各地点におけるローカルラグの値を、他の地点からその地点までのバッファ通信遅延(遅延揺らぎ吸収用のバッファリング時間を含む)の最大値以下の最適値に設定する。この最適値は、地点数が2の場合と同様にして求められる。そして、他の地点から受信するサウンドは、その最大値から他の地点から受信するバッファ通信遅延を引いた時間だけ遅らせて出力することにより、サウンドの高品質な同期を実現する。最大値からバッファ通信遅延を引いた時間は、二つ以上の通信遅延間での通信揺らぎを吸収するためのバッファリング時間に相当する。
【課題を解決するための手段】
【0011】
本発明を実施する形態として、請求項1に記載の発明は、分散した仮想環境において、各地点において自端末で発生するサウンドの出力を、前記他の端末から前記自端末への通信遅延の最大値以下である最大通信遅延だけ遅らせ、前記他の端末から受信するサウンドの出力を、前記最大通信遅延から、通信遅延を引いた時間以下の時間だけ遅らせることを特徴とするサウンド同期方式である。
請求項2に記載の発明は、前記通信遅延および前記最大通信遅延は、通信遅延にバッファリング時間を加えた値であることを特徴とする請求項1記載のサウンド同期方式である。
請求項3に記載の発明は、前記通信遅延および前記最大通信遅延は、前記通信遅延にバッファリング時間を加えた値以下であるローカルラグの最適値であることを特徴とする請求項1記載のサウンド同期方式である。
【図面の簡単な説明】
【0012】
【図1】本発明のローカルラグの値を他端末から自端末への通信遅延に設定する場合に同期がとれることを示す図である。
【図2】本発明の第1実施形態における2端末間の遠隔ドラム演奏システムの全体構成を示す図である。
【図3】本発明の第1実施形態におけるローカルラグに対する総合品質のMOSを示す図である。
【図4】本発明の第1実施形態におけるローカルラグの最適値と通信遅延の関係を示す図である。
【図5】本発明の第2実施形態における3端末間の遠隔ドラム演奏システムの全体構成を示す図である。
【図6】本発明の第2実施形態におけるローカルラグの値と通信遅延との関係を示す図である。
【図7】本発明の第2実施形態における端末1のローカルラグの値と他端末から自端末への通信遅延との関係を示す図である。
【図8】従来の例であるローカルラグの値を自端末から他端末への通信遅延に設定する場合に非同期となることを示す図である。
【発明を実施するための形態】
【0013】
(第1実施形態)
端末の地点数が2の場合の実施例として、図2に示す遠隔ドラム演奏システムを示す。このシステムでは、二人のユーザ1、ユーザ2がネットワークを介して三次元仮想空間内のドラムセットを共有し、一つの楽曲を同時に一緒に演奏することができる。各ユーザの端末は、二つのパソコンPC(PC1とPC2)と一つのスイッチングハブから構成され、各PCには、触覚インタフェース装置としてPHANToM Omniが備え付けられている。また、PC1には、ディスプレイとヘッドセットも付けられている。各ユーザは、二つの触覚インタフェース装置を左右のドラムスティックと見做して操作し、各々分散した仮想環境内のドラムセットを叩くことができる。ドラムスティックがドラムのコンポーネントに当たると、反力が返されるだけでなく、コンポーネントに応じたサウンドもヘッドセットなどを用いて聞くことができる。
各端末では、ドラムスティックがコンポーネントに当たったときに発生するサウンドと画面表示をローカルラグ(端末1では、端末2から端末1への通信遅延にバッファリング時間を加えた時間以下の値)の時間だけ遅らせる。反力は遅らせずにそのまま出力する。画面表示も遅らせるかどうかはオプションである。他の端末から受信するドラムスティックの位置情報(及びサウンド)は、通信遅延吸収用のバッファリングの後に出力する。ドラムスティックの位置情報だけが送られてくる場合には、受信した端末でドラムコンポーネントとの接触判定を行い、当たっていればサウンドを発生する。サウンドも送られてくる場合には、接触判定は不要で、そのまま出力する。

【0014】
ローカルラグとバッファ通信遅延との関係を調査した結果、図3の結果が得られた。図3は、横軸をローカルラグΔ(ms)とし、パラメータのバッファ通信遅延には、簡単のため、バッファ通信遅延に揺らぎがないとしたとき、または遅延揺らぎをバッファリングによって吸収したときのものとした。よって、図3中の通信遅延はバッファ通信遅延に相当する。縦軸はサウンド同期品質とインタラクティブ性を合わせた総合品質のMOS(Mean Opinion Score:主観評価において5段階の評点を被験者につけてもらい、それを平均したもの)を表している。MOSが大きいほど、高品質なサウンド同期を実現しているといえる。

【0015】
図3においてMOSが最大値となることに着目すると、ローカルラグΔ(ms)には、パラメータのバッファ通信遅延に応じて最適値が存在することが分かる。よって、ローカルラグの最適値とバッファ通信遅延との関係を図4に示す(図4中の通信遅延はバッファ通信遅延に相当する)。
図4からも明らかなように、ローカルラグの最適値Δoptimumは、バッファ通信遅延には必ずしも等しくない。この関係に対して回帰分析を行った結果、式1を得た。

【0016】
Δoptimum = 0.65D + 7.50 (式1)

【0017】
ここで、Δoptimumはローカルラグの最適値(推定値)であり、Dはバッファ通信遅延である。この式の自由度調整済み決定係数は0.99であった。従って、高い精度で推定できるといえる。また、図4には、式1によって得られるローカルラグの最適値の計算値も示が、図4からも計算値と測定値は良く一致していることが確認できる。
ここで、図4および式1より、Δoptimum と Dが等しくなるΔoptimum=D≒21.4(ms)の値(おおよその目安の値)であるが分岐点が存在する。
バッファ通信遅延の値Dが分岐点の値より大きい場合、ローカルラグの最適値(推定値)Δoptimumは、バッファ通信遅延の値Dより小さくなる。これは、同期時間が小さくて済むことを意味しており、バッファ通信遅延の値Dの代わりにローカルラグの最適値(推定値)Δoptimumを使用すると更に高品質なサウンドとなる。
一方、バッファ通信遅延の値Dが分岐点の値より小さい場合、ローカルラグの最適値(推定値)Δoptimumは、バッファ通信遅延の値Dより大きくなる。よって、バッファ通信遅延の値Dをそのまま使用したほうが良い。
図3および図4における通信遅延は、バッファ通信遅延に相当する。よって、対象とする通信信号の種類等による一つの通信遅延およびその1つの通信遅延内の通信揺らぎのレベルを把握し、バッファ通信遅延の値Dを算出した上で、図3および図4のよりローカルラグΔの最適値またはバッファ通信遅延の値Dを選定する。

【0018】
(第2実施形態)
端末の地点数が3の場合の実施例として、第1実施形態における図2を3端末に拡張したときのもの図5に示す。図5のシステムにおいて、各端末は、ドラムスティックがコンポーネントに当たったときに発生するサウンドと画面表示をローカルラグ(端末1では、端末2から端末1への通信遅延(バッファリング時間を含む)と、端末3から端末1への通信遅延(バッファリング時間を含む)の大きい方の時間以下の値)の時間だけ遅らせる。これを最大通信遅延という。

【0019】
ここで、従来の非特許文献2の端末間同期方式は、最大通信遅延として、端末相互間(端末1では、端末2から端末1又は端末1から端末2への通信遅延と、端末3から端末1又は端末1から端末3への通信遅延の大きい方の時間以下の値とすることを示しており、最大通信遅延の対象が2倍と増え、その絶対値が大きくなるなどの課題がある。

【0020】
最大通信遅延であるローカルラグの最適値は、第1実施形態における計算式と同じ式によって計算され得る。そして、他の端末から受信するドラムスティックの位置情報(及びサウンド)は、他の二つの端末からの通信遅延の大きい方から、その位置情報が送られてくる端末の通信遅延だけ引いた時間の後に出力する。この様子を図6と図7に示す。これらの図において、例えば、端末2から端末1へのバッファ通信遅延をD21、端末3から端末1へのバッファ通信遅延をD31と表すと、端末1におけるローカルラグΔの値は、D21とD31の大きい方以下、すなわちΔ≦max(D21, D31)で与えられる。そして、端末i(i=2または3)から受信するサウンドは、受信後max(D21, D31)-Di1だけ経ってから出力される。
図8は、D21≦D31の場合を示しており、端末1のローカルラグΔを最大通信遅延D31とする場合を示している。端末1では、端末2から受信するサウンドをD31-D21だけ遅延してから出力する。ここで、D31-D21は、最大通信遅延であるD31から、端末2のバッファ通信遅延D21を引いた時間であり、端末1と端末2間の二つの通信遅延間での通信揺らぎを吸収するためのバッファリング時間に相当する。

【0021】
本発明は分散した仮想環境において、複数の地点で同時に演奏される楽器間の高品質なサウンド同期を実現するために、各地点において自端末で発生するサウンドの出力を、他の端末から自端末へのバッファ通信遅延の最大値を最大通信遅延とし、その値又はその値以下の時間だけ遅らせ、他の端末から受信するサウンドの出力を最大通信遅延からそのバッファ通信遅延を引いた時間又はその時間以下の時間だけ遅らせる方式である。これにより、インタラクティブ性などサウンド品質が向上できる。ここで、最大通信遅延から、バッファ通信遅延を引いた時間は、二つの通信遅延間での通信揺らぎを吸収するためのバッファリング時間に相当する。
最大通信遅延および通信遅延に遅延揺らぎが存在する場合、遅延揺らぎ吸収のためのバッファリング時間を加えた値であるバッファ通信遅延を用いても良い。これによりサウンド品質が向上できる。
また、最大通信遅延として、式1で定義されるローカルラグの最適値(推定値)Δoptimumを用いることもできる。この場合、ローカルラグの最適値(推定値)Δoptimumバッファ通信遅延より小さな値となり、この値を最大通信遅延として用いることから、更にサウンド品質が向上できる。
本発明の遠隔演奏のサウンド同期方式には4つの特徴がある。
第一に、通信遅延は他の端末から受ける通信遅延のみを対象とすること。
第二に、その一つの通信遅延内の通信揺らぎを吸収するためバッファリング時間を加味したバッファ通信遅延を設定し、更に複数の端末間における最大のバッファ通信遅延を最大通信遅延とすること。
第三に、自端末でのサウンド出力は、最大通信遅延から他の端末からのバッファ通信遅延を引いた時間だけ遅らせる、即ち二つの通信遅延間での通信揺らぎを吸収するバッファリング時間を設定することである。
第四に、バッファ通信遅延と最大通信遅延は、回帰式1から求めたローカルラグの最適値以下とすることである。
以上より、本発明の遠隔演奏のサウンド同期方式により、分散した仮想環境において、複数の地点で演奏される楽器間の高品質なサウンド同期を実現することができ、刻々と変化し得る通信遅延に応じてローカルラグの値を動的に制御することも特徴とする方式である。

【0022】
(第3実施形態)
上記の二つの実施形態では、CGで作成されたドラムセットだけを示したが、他のCGで作成されたギターやピアノなどの楽器でも良く、端末によって演奏する楽器が異なっても構わない。また、触覚インタフェース装置も使わなくてもよく、3次元マウスなどの入力デバイスで楽器の操作が可能であれば良い。
【産業上の利用可能性】
【0023】
ネットワークを介した仮想環境で、複数の地点で同時に行われる合奏だけでなく、会議やゲーム等のサウンドを高品質にすることで、インタラクティブ性などを向上することができる。

図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7