TOP > 国内特許検索 > バイノーラル録音を用いた立体音響IP電話 > 明細書

明細書 :バイノーラル録音を用いた立体音響IP電話

発行国 日本国特許庁(JP)
公報種別 公開特許公報(A)
公開番号 特開2015-119248 (P2015-119248A)
公開日 平成27年6月25日(2015.6.25)
発明の名称または考案の名称 バイノーラル録音を用いた立体音響IP電話
国際特許分類 H04S   1/00        (2006.01)
H04M   1/00        (2006.01)
H04S   5/02        (2006.01)
H04R   5/027       (2006.01)
FI H04S 1/00 L
H04M 1/00 R
H04S 5/02 N
H04R 5/027 A
請求項の数または発明の数 4
出願形態 OL
全頁数 9
出願番号 特願2013-259920 (P2013-259920)
出願日 平成25年12月17日(2013.12.17)
新規性喪失の例外の表示 申請有り
発明者または考案者 【氏名】伊藤 嘉浩
【氏名】村上 涼
出願人 【識別番号】304021277
【氏名又は名称】国立大学法人 名古屋工業大学
審査請求 未請求
テーマコード 5D011
5D062
5K127
Fターム 5D011AB11
5D011AC02
5D062AA73
5D062CC15
5K127AA03
5K127BA03
5K127BB02
5K127CB33
5K127DA19
5K127MA03
5K127MA06
5K127MA12
要約 【課題】従来の電話システムにはない、3次元音響である立体音響をインターネット上で伝送し、臨場感のある次世代の立体音響電話システムに関する。
【解決手段】立体音響電話システムの利用者は、2チャンネルのマイク内蔵型イヤホンを左右の耳に装着し携帯端末に接続する。一方の利用者の左右の耳部のマイクで集音した現場の音声を音声携帯端末に録音し符号化して、既存のIP電話システムの2回線を使って各々の音声データを、他方の利用者の携帯端末に送信する。他方の利用者の携帯端末で複号化し、その耳部で左右に対応する音声をイヤホンで再生する双方向のIP電話システムにより、次世代の立体音響電話システムを実現する。
【選択図】 図1
特許請求の範囲 【請求項1】
一方の人間の左右の耳部に装着する2チャンネルのマイク内臓型イヤホンのマイクにてバイノーラル録音を行い、
前記バイノーラ録音を、一方の携帯端末によりそれぞれ符号化信号とし、
前記符号化信号をインターネットの2つの電話回線を用いて、
他方の人間の携帯端末に送信し、
前記他方の携帯端末にて、受信した符号化信号を複号化してバイノーラル出力として、
前記他方人間の左右の耳部に装着した2チャンネルのマイク内臓イヤホンにて再生する、
双方向のIP電話システム。
【請求項2】
前記一方および他方の携帯端末に、
2チャンネルのAD/DA変換機、イコライザ、およびパケット生成器/パケット受信器、
を備えたことを特徴とする請求項1に記載のIP電話システム。
【請求項3】
周波数帯1,000Hz~3,000Hzの帯域成分を保有する音声データを優先的に扱うことを特徴とする請求項1および2に記載に記載のIP電話システム。
【請求項4】
送信者側から録音した音声のうち、受信者側では周波数帯2,000Hz~3,000Hzの音声を強調することを特徴とする請求項1乃至3に記載のIP電話システム。
発明の詳細な説明 【技術分野】
【0001】
本発明は、バイノーラル録音を用いて、3次元音響である立体音響(以下、立体音響)をインターネット上で伝送し、臨場感のある次世代のインターネット電話システム(以下、立体音響IP 電話システム)に関するものである。即ち、立体音響IP電話システムは、インターネット回線に立体音響を利用した電話サービス(以下。立体音響IP電話サービス)を提案するものである。立体音響とは、非特許文献1に示されるように、ある空間に存在する音声を録音し、人間が聴覚によって知覚している音源の方向や音源までの距離などの情報を再生時に立体的に再現する方式のことである。立体音響をIP 電話システムに利用することで、再生された音声を聴いた人間(以下、人間2)が、音声が発生している現場の音声(以下、現場音声)を聞いている人間(以下、人間1)と同じ録音した音声を聞くことで、あたかも音声が発生している現場の空間にいるような臨場感を得ることが期待される。
特に、本発明では、既存のIP 電話システムのIP電話サービスの拡張によりによるサービスを提供する発明のため、現在利用されているIP 電話用の伝送符号化方式を用いた、立体音響IP 電話サービスを検討する。即ち、立体音響をベストエフォート型のネットワークであるIP ネットワーク上で伝送する場合、IP パケットの遅延や損失などによりサービス品質が低下する。よって、IP ネットワークの通信品質の劣化が立体音響IP 電話サービスに及ぼす影響を明らかにすると共に、品質向上に係る発明を提案する。
【背景技術】
【0002】
本発明の従来技術はIP電話システムとは関係の無い立体音響であり、例えば非特許文献2があるが、これは、多地点の音声を合成して、疑似的な立体音響環境を構成するものであり、本発明の目的とは関連しないものである。
立体音響の関連研究は多く行われているが、IP ネットワーク上で立体音響を伝送することを扱った研究は見られない。一方、非特許文献3および非特許文献4には、従来のIP 電話サービスの品質評価手法があるが、これらの品質評価手法は立体音響を考慮したものではない。
【先行技術文献】
【0003】

【非特許文献1】日本音響学会,新版音響用語辞典,コロナ社,July 2003.
【非特許文献2】飯塚真也, 菊入圭, 仲信彦. モバイル多地点音声チャットのためのサラウンド音声伝送技術. NTT DOCOMO テクニカル・ジャーナル, Vol. 17, No. 2, pp.25-29, July 2009.
【非特許文献3】北脇信彦. 携帯電話の符号化—音声コーディング,対音環境特性,通話品質.日本音響学会誌, Vol. 58, No. 12, pp. 780-785, 2002.
【非特許文献4】北脇信彦. IP 電話の通話音質評価. 日本音響学会誌, Vol. 63, No. 11, pp.680-685, 2007.
【非特許文献5】ITU-T, G.711 : Pulse Code Modulation (PCM) of Voice Frequencies," Nov.1988.
【非特許文献6】J.M. Valin, Speex: A Free Codec For Free Speech," 2002. Xiph.OrgFoundation.
【非特許文献7】西山静男.池谷和夫.山口善司.奥島基良.音響振動工学/コロナ社.1979.
【非特許文献8】西巻正郎.電気音響振動学/コロナ社.1978.
【発明の概要】
【発明が解決しようとする課題】
【0004】
前述のように従来技術には、3次元音響である立体音響(以下、立体音響)をインターネット上で伝送し、臨場感のある次世代のインターネット電話システム(以下、立体音響IP 電話システム)に関するものはない。
【0005】
本発明は、バイノーラル方式による立体音響を利用したインターネットにおける次世代電話システムとして立体音響IP 電話システムを提案する。この立体音響IP電話システムによる立体音響IP電話サービスによる立体音響により、左右、後方音源の位置など、3D画像などの視覚情報からは知覚できない情報を提供することができる。従って、本発明の立体音響IP電話システムの実現により、これまでのサービスにはない高い臨場感を与える次世代インターネット電話サービスとなる。
よって、本発明は、インターネット上での新しいサービスの提供により、生活の質(QOL)を大きく向上させることを目的とする。
【課題を解決するための手段】
【0006】
前記目的を達成するため、請求項1に記載の発明は、一方の人間の左右の耳部に装着する2チャンネルのマイク内臓型イヤホンのマイクにてバイノーラル録音を行い、前記バイノーラ録音を、一方の携帯端末によりそれぞれ符号化信号とし、前記符号化信号をインターネットの2つの電話回線を用いて、他方の人間の携帯端末に送信し、前記他方の携帯端末にて、受信した符号化信号を複号化してバイノーラル出力として、前記他方人間の左右の耳部に装着した2チャンネルのマイク内臓イヤホンにて再生する、双方向のIP電話システムに関する。
本発明によれば、送信者が左右の耳で聞いている現場の音声を、既存のIP電話システムを2回線使い送信して、受信者の左右の耳部でそのまま再生することができ、立体音響IP 電話システムを構築することができる。
請求項2に記載の発明は、前記一方および他方の携帯端末に、2チャンネルのAD/DA変換機、イコライザ、およびパケット生成器/パケット受信器、を備えたことを特徴とする請求項1に記載のIP電話システムである。
本発明によれば、録音した音声を周波数帯ごとに分割して、送信、再生することが可能となる。
請求項3に記載の発明は」、周波数帯1,000Hz~3,000Hzの帯域成分を保有する音声データを優先的に扱うことを特徴とする請求項1および2に記載に記載のIP電話システムである。
本発明によれば、IP電話システムによるパケット損失による影響を最小限に抑え、会話による音声の明瞭度を現場の音声と同程度に維持することができる。
請求項4に記載の発明は、送信者側から録音した音声のうち、受信者側では周波数帯2,000Hz~3,000Hzの音声を強調することを特徴とする請求項1乃至3に記載のIP電話システムである。
本発明によれば、現場の音声データでも識別困難な、前後方向の音源定位能の向上を図ることができる。
【図面の簡単な説明】
【0007】
【図1】本発明の実施形態1であるバイノーラル録音を用いた立体音響IP電話システムの全体構成
【図2】本発明の有効性評価の実験装置
【図3】本発明の有効性評価の実験結果
【図4】本発明の有効性評価を比較するための実験結果
【図5】本発明の実施形態2および3のバイノーラル録音を用いた立体音響IP電話システムの全体構成
【発明を実施するための形態】
【0008】
(実施形態1)
本発明の立体音響IP電話システムの基本構成である実施形態1の特徴を図に従って以下に説明する。

【0009】
図1に、本発明の第1実施形態であるバイノーラル録音を用いた立体音響IP電話システムの全体構成を示す。一方の立体音響IP電話システムの利用者を人間1、他方の利用者を人間2とする。人間1および人間2は、マイク内蔵型イヤホンを左右の耳に装着する。ここで立体音響IP電話システムを、人間1を送信者、人間2を受信者として説明する。人間1が左右の耳部に装着したマイクを通じて、人間1が話した音声及び人間1が周囲から聞いた音声を集音し、携帯端末・スマートホン等(以下、携帯端末)に入力する。人間1の携帯端末1では、録音した音声信号を、バイノーラル方式により録音し信号補正・符号化(以下、符号化)をおこなう。符号化した音声はインターネットを介して、人間2の携帯端末2に送信される。即ち、インターネットにおいて、音声信号は、人間1の携帯端末1から人間1のエリアの基地局1に送信され、基地局1から人間2のエリアの基地局2へ送信される。更に、基地局2から人間2の携帯端末2へ送信される。携帯端末2では、音声信号をバイノーラル方式の音声へ複号化される。複号化された音声は、人間2の装着するマイク内臓型イヤホンでバイノーラル出力として再生される。

【0010】
ここで、立体音響IP電話システムでは左右の耳に各々マイク内蔵型イヤホンが装着され、各々別々の音声として、音声信号化されて送信する。よって、既存のIP電話システムにおけるチャンネルを2回線使用する。そして、1回線を用いて人間1の右側の耳部で録音した音声を送信し人間2の右側耳部で再生し、他の1回線を用いて人間1の左側の耳部で録音した音声を送信し人間2の左側耳部で再生する。尚、左右のそれぞれの信号は、現在利用されている通常のIP電話システムの回線を用い、モノラルでも良い。以上のように左右別々の信号を扱うことにより、3次元音響である立体音響となる。

【0011】
携帯端末等1における集音した音声の符号化、送信は瞬時(約5ms)で行われ、携帯端末等2における受信した符号化信号の複号化も瞬時(約5ms)で行われるので、インターネットのIP電話システムの回線が有効ならば人間1の耳部で集音した音声は、瞬時に人間2の耳部で再生される。また、実施形態1の立体音響IP電話システムは、利用者である人間1、人間2共に、2チャンネルのマイク内蔵イヤホンを装着しているので、人間2から人間1への送信もできる。よって、双方向の送受信が可能で電話としての機能を有する。

【0012】
立体音響IP 電話サービスを提供するために検討すべき事項として、受聴者が音源を定位する能力(以下、音源定位能)、立体音響の録音・再生方式,立体音響の伝送符号化方式の3点がある。
音源定位能とは、受聴者である人間2が、立体音響IP電話サービスから発せられた音声を基に音像を知覚し、音源の空間的性質を判断する能力である。正しく音源定位がなされた場合、受聴者(人間2)が音声信号により知覚した音源の空間的性質である人間2から音源の方向や音源までの距離は、送信者(人間1)がおかれた空間的性質である人間1から音源の方向や音源までの距離と一致する。
立体音響の録音・再生方式には、IP電話サービスであることを踏まえ、バイノーラル方式を採用する。バイノーラル方式とは、主にダミーヘッドと呼ばれる両耳の部分にマイクロホンを埋め込んだ人工の頭部模型で録音した左右2 チャンネルの音声を、ヘッドホンを用いて受聴者の両耳に提示する方式である。具体的には、IP電話サービスの利用者が2チャンネルのマイク内蔵イヤホンを使用することで、バイノーラル方式であるダミーヘッドの両耳の部分にマイクロホンを埋め込んだ人工の頭部模型で録音した左右2 チャンネルの音声と同等の音声を、マイク内蔵イヤホンのマイクで集音できるので録音も可能となる。また、イヤホンのよる再生もできる。
バイノーラル方式を利用することで、IP電話サービスの利用者である送信者(人間1)が左右の耳で聞いた音が、そのまま受聴者(人間2)の左右の耳で再現でき、人間の頭部の影響による両耳間差を再現することが可能となる。よって、普段人間が音源定位能の手がかりとしている情報も再現できる。またバイノーラル録音では、多数のスピーカやマイクなどを用いずに、マイク内蔵イヤホンにて立体音響の作成、復元が簡易かつ低コストで実現できるため、電話サービスに非常に適している。
立体音響の符号化方式には、IP 電話に用いられる符号化方式の中から採用する。例えば、非特許文献5に示されるITU-TG.711、または、非特許文献6に示されるSpeexなどを採用する。ITU-T G.711 は、電話サービスISDN や固定電話網などで多く使われている音声符号化方式である。符号ビットレートは64kb/s で固定されている。一方、Speex はIP ネットワークでVoIP を利用した電話サービスアプリケーションなどで採用されることを想定した音声符号化方式である。

【0013】
(有効性の確認)
発明者らは、立体音響IP 電話システムの有効性を以下の実験で確認した。即ち、本実験は、被験者を用いた実験により、立体音響の符号化方式およびIP ネットワークの通信品質が音源定位に及ぼす影響を評価するものである。

【0014】
図2に実験装置を示す。部屋1に人間1の代わりにダミーヘッド(型式:KU-100)を置き、左右の耳部にマイクをつけた。ダミーヘッドの正面においたスピーカ(型式:AT-SPB30)
より、評価用音声として女性のアナウンス音声を出力した。出力された評価用音声はダミーヘッドの左右の耳部の2つのマイクを通して集音しマイクロホンアンプで増幅する。増幅した評価用音声は、左右2 チャンネルのアナログ信号として音声録音・符号化端末へ送られる。
音声録音・符号化端末にて、チャンネル毎にリニアPCM 形式で符号化され、これを伝送前の原音として扱う。その後、伝送用の符号化処理を施され、部屋2の音声復号化・再生端末に向けて送信される。
送信は、ネットワークエミュレエータにてインターネットのIP電話システムを介して行う。伝送時の符号化方式の条件には、ITU-TG.711(64kb/s)形式と、符号化ビットレートをそれぞれ変更したSpeex 形式が利用されている。
尚、部屋2の音声復号化・再生端末は、部屋1のスピーカの音声を直接聞き取れない場所にある。部屋2において被験者(人間)が、ダミーヘッドの左右耳部に対応した左右の耳部に装着したヘッドホン(型式:ATH-T300)にて音声を聞き、音源定位能を確認・評価する。

【0015】
図3に図2の実験装置を用いて評価した、音源定位能の具体的な実験結果を示す。横軸は、実際の音源方向である部屋1におけるダミーヘッドに対する音源であるスピーカの方向であり、縦軸は、被験者が聞こえた音源の方向である部屋2における人間が評価した音源の方向である。評価する方向は、ダミーヘッドの正面にスピーカを置いた場合を0°として、反時計回りに45°、90°、135°、180°、225°、270°、315°の8 通りを設定した。即ち、右の耳部は90°、後方は180°、左の耳部は270°である。
図3は、IPパケットの損失率3%、被験者24人の結果である。右の耳部である90°方向は、音源の方向とその評価方向が同じ被験者が20人であり、左の耳部である270°方向は、同様に22人である。よって、左右方向は実際の音源方向を特定できている。

【0016】
更に図3の実験結果の比較検証を行うため、追加実験を行い図4の実験結果を得た。これは部屋1においてダミーヘッドの代わりに被験者(人間)24人が目隠しをして、図3と同様の音源方向を評価したものである。よって、図4が現場音声の音声定位能であり、現場にいる人間が3次元音響である立体音響を聞き、臨場感を体感している状態といえる。図3と図4を比較すると、右の耳部である90°方向は、音源の方向とその評価方向が同じ被験者が図4の21人に対し図3は20人であり、左の耳部である270°方向は、図4の23人に対し図3は22人である。また、他の方向の実験結果においても、個人差によるバラツキはあるものの、現場音声である図4と立体音響IP 電話システム本実験の実施形態1の結果である図3とは、ほぼ一致している。以上より、被験者は左右の音源の方向を正確に知覚できており、実施形態1の立体音響IP 電話システムの有効性が確認できた。
尚、当初懸念した、立体音響をベストエフォート型のネットワークであるIP ネットワーク上で伝送する場合、IP パケットの遅延や損失などによりサービス品質が低下については、パケット損失率3%であり、このレベルであれば評価用音声として用いた女性のアナウンス音声のような通常の人間の会話による通信に関するレベルでは問題ないことも分かった。よって、現在利用されている通常のIP電話システムを立体音響IP電話システムとして使用できる。

【0017】
(実施形態2)
本発明の実施形態2は、音質向上の方法に関する。会話音質における重要な周波数帯として、非特許文献7には、音声の明瞭度に寄与する周波数帯は、250Hz~7,000Hzであり、中でも重要な周波数帯は 250Hz~3,400Hzと開示されている。更に、非特許文献8には、非特許文献7より、1,000Hz~3,000Hzの範囲を通過させれば、明瞭度を約90%に保つことが出来ることが開示されている。
よって、低い周波数を切り捨ててもさほど明瞭度には影響しないが、高い周波数を切り捨てると子音の明瞭度は著しく低下するといえる。実施形態2は、これら1,000Hz~3,000Hzの帯域成分を保有する音声データを優先的に扱うことで、音質の劣化を防ぐものである。

【0018】
図5に実施形態2のインターネット電話システムの構成を示す。実施形態2は、図1の携帯端末に、符号器/複号器に次の構成を加える。具体的には、一方の送信者側で、マイク内蔵型イヤホンで集音した音声を携帯端末に送る。携帯端末では、2チャンネル・AD変換機によりアナログ信号をデジタル信号に変換する。これを音像補正イコライザで、周波数帯ごとの音声データに分割する。その音声データを符号器によりIP電話システムの送信データに変換する。更に、パケット生成器により音質向上のための優先制御を行い、優先した周波数帯のデータを優先してネットワークで他方の受信者の携帯端末に送信する。
受信者の携帯端末では、パケット受信器により受信したデータを音質向上のための優先制御により優先した周波数の処理を優先して行う。優先して受信したデータを複号器で音声データに複号化する。次に、音質・音像補正イコライザにて周波数帯ことに優先する周波数帯を増幅する。これを2チャンネルイヤホン・DA変換器でデジタル信号からアナログ信号に変換し、受信者の2チャンネルマイク内蔵イヤホンにて再生出力を行う。
ここで優先制御する周波数は、1,000Hz~3,000Hzの範囲である。即ち、音声の明瞭度に寄与する周波数帯を優先して使用することにより、会話の音質の低下を最小限として、会話の音声の明瞭度を向上させることができる。
ここでは、一方の送信者から他方の受信者への送信する構成で説明したが、実際には双方向のIP電話システムであるので、AD変換機とDA変換機、音像補正イコライザと音質・音像補正イコライザ、符号器と複号器、パケット生成器とパケット受信器は、送信者と受信者の双方が使用する形態端末に装備されている。
尚、実施形態2では音像補正イコライザの機能および音質・音像補正イコライザの内、音像補正イコライザの機能は使用しない。

【0019】
(実施形態3)
実施形態1および実施形態2は、送信者の現場音声を忠実に受信者に送信し再生することで立体音響IP 電話システムを構成しているが、一方、図3、4において、前方方向である0°、後方方向である180°においては、音源の方向を正確に知覚できた被験者が、左右方向である90°、270°に比べて少ない。
そこで、実施形態3の発明は、収録した音声の内、脳が後方からの音声を認識する周波数帯を強調して再生することで、更に、受信者に臨場感のある立体音響IP 電話システムを提供する。送信者の視覚情報がない受信者にとって、この3次元音響により更に臨場感のあるものとなる。

【0020】
一般的に、高周波数帯の音声は、前方からの音声に比べて、後方からは聞き取りにくいことが知られている。よって、実施形態3では、周波数帯2,000Hz~3,000Hzの音声を強調して再生する。
実施形態3の構成は図5と同じであり、送信側および受信側の携帯端末において、音像補正イコライザが機能する。
【産業上の利用可能性】
【0021】
本発明のサービスと、映像伝送(特に立体映像伝送)、位置情報システムなどと組み合わせることにより、更に臨場感の高いIP電話サービスを提供できる。
【符号の説明】
【0022】
1 人間1
1-1 人間1のマイク内蔵型イヤホン(2チャンネル)
1-2 人間1の携帯端末1
1-3 人間1のエリアの基地局1
2 人間2
2-1 人間2のマイク内蔵型イヤホン(2チャンネル)
2-2 人間2の携帯端末2
2-3 人間2のエリアの基地局2
3 実施形態2および実施形態3の携帯端末
3-1 AD/DA変換機
3-2 音質・音像補正イコライザ
3-3 符号器/複号器
3-4 パケット生成器/パケット受信器
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4