TOP > 国内特許検索 > コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置 > 明細書

明細書 :コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置

発行国 日本国特許庁(JP)
公報種別 再公表特許(A1)
発行日 令和2年1月23日(2020.1.23)
発明の名称または考案の名称 コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置
国際特許分類 G06Q  10/10        (2012.01)
FI G06Q 10/10
国際予備審査の請求 未請求
全頁数 24
出願番号 特願2019-507706 (P2019-507706)
国際出願番号 PCT/JP2018/011173
国際公開番号 WO2018/174088
国際出願日 平成30年3月20日(2018.3.20)
国際公開日 平成30年9月27日(2018.9.27)
優先権出願番号 2017054727
優先日 平成29年3月21日(2017.3.21)
優先権主張国 日本国(JP)
指定国 AP(BW , GH , GM , KE , LR , LS , MW , MZ , NA , RW , SD , SL , ST , SZ , TZ , UG , ZM , ZW) , EA(AM , AZ , BY , KG , KZ , RU , TJ , TM) , EP(AL , AT , BE , BG , CH , CY , CZ , DE , DK , EE , ES , FI , FR , GB , GR , HR , HU , IE , IS , IT , LT , LU , LV , MC , MK , MT , NL , NO , PL , PT , RO , RS , SE , SI , SK , SM , TR) , OA(BF , BJ , CF , CG , CI , CM , GA , GN , GQ , GW , KM , ML , MR , NE , SN , TD , TG) , AE , AG , AL , AM , AO , AT , AU , AZ , BA , BB , BG , BH , BN , BR , BW , BY , BZ , CA , CH , CL , CN , CO , CR , CU , CZ , DE , DJ , DK , DM , DO , DZ , EC , EE , EG , ES , FI , GB , GD , GE , GH , GM , GT , HN , HR , HU , ID , IL , IN , IR , IS , JO , JP , KE , KG , KH , KN , KP , KR , KW , KZ , LA , LC , LK , LR , LS , LU , LY , MA , MD , ME , MG , MK , MN , MW , MX , MY , MZ , NA , NG , NI , NO , NZ , OM , PA , PE , PG , PH , PL , PT , QA , RO , RS , RU , RW , SA , SC , SD , SE , SG , SK , SL , SM , ST , SV , SY , TH , TJ , TM , TN , TR , TT
発明者または考案者 【氏名】三宅 美博
【氏名】大良 宏樹
出願人 【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
個別代理人の代理人 【識別番号】100105924、【弁理士】、【氏名又は名称】森下 賢樹
【識別番号】100109047、【弁理士】、【氏名又は名称】村田 雄祐
【識別番号】100109081、【弁理士】、【氏名又は名称】三木 友由
【識別番号】100133215、【弁理士】、【氏名又は名称】真家 大樹
審査請求 未請求
テーマコード 5L049
Fターム 5L049AA11
要約 コミュニケーション解析装置2は、複数の参加者によるコミュニケーションを解析する。マイク10は、複数の参加者の発声を音声データSとして取得する。カメラ20は複数の参加者の画像データSを取得する。解析評価部30は、音声データSおよび画像データSにもとづき、コミュニケーションを評価する。フィードバック部40は、解析評価部30による評価結果を、複数の参加者4にフィードバックする。
特許請求の範囲 【請求項1】
複数の参加者によるコミュニケーションを解析するコミュニケーション解析装置であって、
複数の参加者の発声を音声データとして取得するマイクと、
複数の参加者の画像データを取得するカメラと、
前記音声データおよび前記画像データにもとづき、コミュニケーションを評価する解析評価部と、
前記解析評価部による評価結果またはそれにもとづくフィードバックを前記複数の参加者にリアルタイムで提供するフィードバック部と、
を備えることを特徴とするコミュニケーション解析装置。
【請求項2】
前記フィードバック部は、前記複数の参加者で共有されるリズムを提示することを特徴とする請求項1に記載のコミュニケーション解析装置。
【請求項3】
前記フィードバック部はロボット型であり、頷き、身振りもしくは手振りの少なくともひとつにより、リズムを提示することを特徴とする請求項2に記載のコミュニケーション解析装置。
【請求項4】
前記フィードバック部は、前記解析評価部により参加度が低いとされる参加者に対して、前記リズムを提示することを特徴とする請求項2または3に記載のコミュニケーション解析装置。
【請求項5】
前記フィードバック部は、前記解析評価部による心的状態の評価結果にもとづいて選択される参加者に対して前記リズムを提示することを特徴とする請求項2または3に記載のコミュニケーション解析装置。
【請求項6】
前記解析評価部は、前記複数の参加者間の同調状態を評価することを特徴とする請求項1から5のいずれかに記載のコミュニケーション解析装置。
【請求項7】
前記フィードバック部は、前記解析評価部による評価結果を可視化して提示することを特徴とする請求項1から6のいずれかに記載のコミュニケーション解析装置。
【請求項8】
前記解析評価部は、前記複数の参加者それぞれの体の動きを監視することを特徴とする請求項1から7のいずれかに記載のコミュニケーション解析装置。
【請求項9】
前記解析評価部は、前記複数の参加者それぞれの顔の状態を監視することを特徴とする請求項1から8のいずれかに記載のコミュニケーション解析装置。
【請求項10】
複数の参加者によるコミュニケーションの場に設置される測定・フィードバック装置であって、
複数の参加者の発声を音声データとして取得するマイクと、
複数の参加者の画像データを取得するカメラと、
外部のコンピュータに前記音声データおよび前記画像データを送信するとともに、前記コンピュータからコミュニケーションの評価結果にもとづくフィードバックデータを受信するインタフェース部と、
前記フィードバックデータにもとづく情報あるいは刺激を複数の参加者にリアルタイムで提示するフィードバック部と、
を備えることを特徴とする測定・フィードバック装置。
【請求項11】
前記フィードバック部は、前記複数の参加者で共有されるリズムを提示することを特徴とする請求項10に記載の測定・フィードバック装置。
【請求項12】
前記フィードバック部はロボット型であり、頷き、身振りもしくは手振りの少なくともひとつにより、前記リズムを提示することを特徴とする請求項11に記載の測定・フィードバック装置。
【請求項13】
前記フィードバック部は、前記コンピュータにより参加度が低いとされる参加者に対して、前記リズムを提示することを特徴とする請求項11または12に記載の測定・フィードバック装置。
【請求項14】
前記フィードバック部は、前記コンピュータによる心的状態の評価結果にもとづいて選択される参加者に対して前記リズムを提示することを特徴とする請求項11または12に記載の測定・フィードバック装置。
【請求項15】
前記カメラは全方位カメラであることを特徴とする請求項10から14のいずれかに記載の測定・フィードバック装置。
【請求項16】
前記測定・フィードバック装置は、前記複数の参加者までの距離を測定する測距センサをさらに備えることを特徴とする請求項15に記載の測定・フィードバック装置。
【請求項17】
複数の参加者によるコミュニケーションの場に設置されるインタラクション装置であって、
複数の参加者の音声データおよび/または画像データを取得する入力装置と、
前記入力装置が測定した音声データおよび/または画像データにもとづき、前記複数の参加者で共有されるリズムを抽出する解析評価部と、
前記リズムを前記複数の参加者の少なくともひとりにリアルタイムで提示するフィードバック部と、
を備えることを特徴とするインタラクション装置。
発明の詳細な説明 【技術分野】
【0001】
本発明は、コミュニケーションを解析する技術に関する。
【背景技術】
【0002】
会議等の対面コミュニケーションにおいては、言語および非言語情報からなる重層化されたコミュニケーションチャネルが重要な役割を担っている。これまでもカメラおよびマイクをテーブルに設置又は会議室等に据え置くことによってコミュニケーションをモニタリングするシステムが提案されてきたが、従来方法では映像や音声等を記録するものが主流であった。
【0003】
たとえば特許文献1には、魚眼または超広角レンズおよび可変指向性マイクを用いたテレビカメラ装置が開示される。このテレビカメラ装置は、テレビ会議中に音声が発生されない場合でも人物の追尾を安定して行い、アクティビティのあるテレビ会議の映像を生成し、雑音やエコーを低減した高品質の臨場感のあるテレビ会議を実現する。
【先行技術文献】
【0004】

【特許文献1】特開平11-331827号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
このように従来の装置は、コミュニケーションを受動的に監視し、あるいは記録するのにとどまっており、装置がコミュニケーションに積極的に介入し、あるいは影響を及ぼすことはなかった。
【0006】
本発明は係る状況においてなされたものであり、そのある態様の例示的な目的のひとつは、コミュニケーションに介入するコミュニケーション解析装置の提供にある。また本発明の別の態様のひとつは、コミュニケーションを測定し、評価結果をフィードバックする測定・フィードバック装置の提供にある。
【課題を解決するための手段】
【0007】
本発明のある態様は、複数の参加者によるコミュニケーションを解析するコミュニケーション解析装置に関する。コミュニケーション解析装置は、複数の参加者の発声を音声データとして取得するマイクと、複数の参加者の画像データを取得するカメラと、音声データおよび画像データにもとづき、コミュニケーションを評価する解析評価部と、解析評価部による評価結果またはそれにもとづくフィードバックを複数の参加者にリアルタイムで提供するフィードバック部と、を備える。
【0008】
この態様によると、コミュニケーションをリアルタイムで解析し、その結果をリアルタイムで参加者にフィードバックすることができる。これにより、コミュニケーションの質を高めることができる。
【0009】
フィードバック部は、複数の参加者で共有されるリズムを提示してもよい。このようなリズムは、対面コミュニケーションの場に埋もれており、個々の参加者が視覚的あるいは聴感的にそれを知覚することは難しい。このリズムを、対面コミュニケーションの場から抽出し、抽出したリズムを、視覚的な刺激、聴覚的な刺激、体性感覚的な刺激としてコミュニケーションの場に強調して再提示することにより、そのリズムを共有していない他の参加者に、そのリズムに同調することを促すことができる。
【0010】
フィードバック部はロボット型であり、頷き、身振りもしくは手振りの少なくともひとつにより、リズムを提示してもよい。
【0011】
フィードバック部は、解析評価部により参加度が低いとされる参加者に対して、リズムを提示してもよい。
【0012】
フィードバック部は、解析評価部による心的状態の評価結果にもとづいて選択される参加者に対してリズムを提示してもよい。たとえば心的状態として、共感度、一体感、合意度などを参照することができる。心的状態が否定的な参加者にリズムを提示することで、共感度/一体感/合意度を肯定的な状態に変化させることができる。なお本明細書において、共感度/一体感/合意度が低いことを、否定的状態、共感度/一体感/合意度が高いことを、肯定的状態という。
【0013】
解析評価部は、複数の参加者間の同調状態を評価してもよい。同調状態は、参加者の心的状態と相関を有するため、物理量である同調状態を評価した上で、同調状態を利用して、心的状態を評価することができる。あるいは、解析評価部は、必ずしも心的状態まで評価する必要はなく、同調状態という物理量のみを評価し、それをフィードバックしてもよい。
【0014】
フィードバック部は、解析評価部による評価結果を可視化して提示してもよい。
【0015】
解析評価部は、複数の参加者それぞれの体の動きを監視してもよい。体の動きは、身振り、仕草、姿勢、頷きなどを含んでもよい。
【0016】
解析評価部は、複数の参加者それぞれの視線の動きを監視してもよい。解析評価部は、顔の表情や表情の動き、顔の向きなどを監視してもよい。
【0017】
本発明の別の態様は、複数の参加者によるコミュニケーションを測定する測定・フィードバック装置に関する。測定・フィードバック装置は、複数の参加者の発声を音声データとして取得するマイクと、複数の参加者の画像データを取得するカメラと、外部のコンピュータに音声データおよび画像データを送信するとともに、コンピュータからコミュニケーションの評価結果にもとづくフィードバックデータを受信するインタフェース部と、フィードバックデータにもとづく情報を複数の参加者に提示するフィードバック部と、を備える。
【0018】
カメラは全方位カメラであってもよい。測定・フィードバック装置は、複数の参加者までの距離を測定する測距センサをさらに備えてもよい。
【0019】
なお、以上の構成要素を任意に組み合わせたもの、あるいは本発明の表現を、方法、装置などの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0020】
本発明のある態様によれば、コミュニケーションに介入し、コミュニケーションの質を高めることができる。
【図面の簡単な説明】
【0021】
【図1】実施の形態に係るコミュニケーション解析装置のブロック図である。
【図2】コミュニケーション解析装置を構成する測定・フィードバック装置を示す図である。
【図3】コミュニケーション解析装置の具体的な機能ブロック図である。
【図4】フィードバック部の別の一例を示す図である。
【図5】360度カメラによって撮影した1フレームの画像データを示す図である。
【図6】図6(a)は、2人の被験者について行った予備実験の結果を示す図であり、図6(b)は、条件1~3ごとに、役割Aと役割Bの輝度変化量の相関係数をFisherのZ変換を用い、さらにバートレット補正をかけることで得られたZ値を示す図である。
【図7】図7(a)、(b)は、同期条件、非同期条件における結果を示す図である。
【図8】図8(a)~(c)は、対面コミュニケーションにおける、共感度と身体運動の関係を示す図である。
【図9】図9(a)、(b)は、対面コミュニケーションにおける、共感度と視線運動の関係を示す図である。
【図10】ロボットを用いた実験の様子を示す図である。
【図11】図11(a)、(b)は、図10の実験結果を示す図である。
【発明を実施するための形態】
【0022】
以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、実施の形態は、発明を限定するものではなく例示であって、実施の形態に記述されるすべての特徴やその組み合わせは、必ずしも発明の本質的なものであるとは限らない。

【0023】
図1は、実施の形態に係るコミュニケーション解析装置2のブロック図である。コミュニケーション解析装置2は、複数の参加者による会議やディスカッション、レクチャーなど(以下、コミュニケーションという)を解析し、解析結果を参加者にフィードバックする。

【0024】
コミュニケーション解析装置2は、マイク10、カメラ20、解析評価部30、フィードバック部40を備える。マイク10は、複数の参加者4の発声を音声データSとして取得する。図1では、マイク10、カメラ20は1個のみが示されるが、複数設けられてもよい。カメラ20は、複数の参加者4の姿を画像データSとして取得する。解析評価部30は、音声データSおよび画像データSを解析し、複数の参加者4によりなされるコミュニケーションを評価し、評価結果を示す指標を生成する。指標の形式は特に限定されず、1、0の2値、あるいは多値データとしてもよいし、あるいはベクトル量としてもよい。

【0025】
フィードバック部40は、解析評価部30による評価結果Sを、複数の参加者4にフィードバックする。フィードバックには、聴覚刺激、視覚刺激、体性感覚刺激それらの組み合わせを用いることができ、特に限定されない。たとえば聴覚刺激としては、ビープ音やアラーム音、予めサンプリングされた所定の音声を用いてもよいし、スピーチシンセサイザ(音声合成)を使用して文字列を音響信号(合成音声)に変換してもよい。視覚刺激としては、LEDや照明などの発光状態(明るさ、色、点滅などのパターン)、ディスプレイ装置による画像/テキスト表示、機械的手段を用いることができる。体性感覚刺激としては、振動や加圧などの触覚刺激、風による刺激、温度による刺激などを用いることができる。フィードバックの方法、態様は、評価対象としたコミュニケーションの側面に応じて選択すればよい。

【0026】
評価対象とするコミュニケーションの側面およびフィードバックの組み合わせは特に限定されないが、以下のものが例示される。

【0027】
(1)参加者の参加度
参加度は、コミュニケーションへの関与度であり、言語情報、あるいは非言語情報にもとづいて解析することができる。

【0028】
最も簡易には、マイク10により取得される音声データSを用い、参加者ごとの発言の頻度あるいは回数を測定し、測定結果を定量化してもよい。より高度には、発言の内容を解析し、言語情報(意味内容)にもとづいて、有意義な発言、会議と関係の無い発言や私語を区別することは、参加度の生成に有意義である。

【0029】
参加度は、非言語情報を利用して解析することも可能である。非言語情報としては具体的に、相づち、まばたき、視線の滞留時間、身振り、手振り、首振り、体幹の揺れ、視線の動き、などが例示される。これらは、参加者4の外部から視覚的に把握できるものであり、カメラ20により取得される画像データSを解析すればよい。居眠りや内職などは、視覚的に把握できる具体例である。

【0030】
当業者によれば、事前の実験、検証から得られた経験則、学習にもとづいて、いずれの非言語情報に参加者のどのような心的状態が反映されるかを把握することができることが理解され、したがって、言語情報、非言語情報から、参加度を表す指標を生成可能であることが理解される。

【0031】
さらに別の非言語情報としては、会話のターンテーキング、ため息、声の調子などを用いることができる。

【0032】
参加度を評価した場合、フィードバックとしては、以下のものが挙げられる。たとえば、参加度が低い参加者に向けて、参加や発言を促す所定のビープ音を発声してもよい。あるいは参加者ごとにランプなどのインジケータを割り当てて設けておき、参加度が低い(あるいは反対に、参加度が高い)参加者に対応付けられるインジケータを点灯させてもよい。

【0033】
参加者ごとの参加度が数値化されている場合、各参加者が、自身の(さらには他の参加者の)参加度の値を把握できる態様で表示してもよい。たとえば参加度の値に応じて明るさや色を変化させてもよい。

【0034】
居眠りや内職の疑いがある参加者については、音声やインジケータを利用して刺激を与え、その旨を警告してもよい。

【0035】
会議をはじめとする多くのコミュニケーションでは、発言が一部の参加者に集中したりすることは良く起こる。従来においては、全員が参加するように配慮し、時には参加者に発言を促したりする役割が、司会進行役に委ねられる場合が多い。しかしながら司会進行役にそのような役割を担わせることは、本来の司会進行業務の妨げになるおそれもある。また、各参加者がコミュニケーションに関与しているか否かの判断が司会進行役の主観に委ねられることとなる。

【0036】
実施の形態に係るコミュニケーション解析装置2では、参加度を評価し、その結果を参加者にフィードバックするため、このような問題を解決できる。

【0037】
また従来では、積極的にコミュニケーションに関与していない参加者が、司会進行役の上司や年上である場合、そのことが、参加を促す行動を躊躇させるかもしれないし、また部下や年下に参加を促された上司や年上は気分を害すかもしれない。つまり人間関係がコミュニケーションの質の改善を阻害する。

【0038】
実施の形態に係るコミュニケーション解析装置2では、装置(機械)によって参加が促されることになるため、そこに人間関係は介在しない。参加を促された人間も、人間よりも客観的な機械によって参加を促された方が、納得しやすい。この観点においても、コミュニケーション解析装置2は有利である。

【0039】
(2)参加者の心的状態
ここでいう心的状態とは、共感、信頼感、一体感、居場所感、ライブ感、合意や同意、納得感、関心の高さなどの、個人の間の心的状態の指標であり、参加度よりもさらに高度な指標である。これらについては本出願人が既出願した国際特許出願(PCT/JP2013/007352)に記載の技術を用いて定量化することができる。具体的には、言語情報あるいは非言語情報から、心的状態を表す指標を生成することができる。

【0040】
たとえば、ある参加者の発言に対する関心度、同意度、共感度などは、相槌や頷きなどの動作から検出してもよく、音声データSや画像データSを利用して解析できる。

【0041】
一例として、発言者(話し手)と他の参加者(聞き手)の動きの同期の程度(シンクロ度)にもとづいて、共感度、関心度や同意度を数値化することができる。たとえば、発言者と他の参加者の頷き、身振り、手振り、姿勢、表情の同期の程度にもとづいて関心度、同意度、共感度を数値化してもよい。

【0042】
話し手と聞き手がいる場合に、両者の頷きを測定すると、共感的な状態では聞き手の方が話し手よりも少し先(数百ms)に頷く傾向があり、非共感的な状態では、聞き手が話し手に遅れて頷く傾向がある。したがって、一例として、頷きのタイミング(位相)の関係にもとづいて、共感度を検出できる。

【0043】
また対面コミュニケーションの2名の参加者の視線に着目すると、共感的でない状態と共感的な状態とでは、双方の視線運動に有意な差異が生ずることという知見が得られた(図9)。したがって、一実施例において、各参加者の視線運動にもとづいて、共感度を検出できる。

【0044】
心的状態を評価した場合、フィードバックとしては、以下のものが挙げられる。たとえば、発言者に対して、複数の参加者の心的状態の指標(関心度、同意度など)の数値を提示してもよい。発言者には、全員の平均値を提示してもよい。あるいは各個人の数値を、参加者と紐付けた形で提示してもよい。

【0045】
これにより、発言者は、提示された数値にもとづいて、参加者の関心度や共感度等を知ることができ、今後の発言やプレゼンテーションに反映させることができ、コミュニケーションの質の改善が図られる。

【0046】
フィードバックの態様は、数値の提示には限定されない。たとえばフィードバックには、視覚的な刺激を用いてもよい。視覚的な刺激は、共感度を色の種類や色の濃さで表したものでもよいし、光の点灯状態の変化(点灯、消灯、点滅の周期)で表してもよい。

【0047】
またフィードバックには、聴覚的な刺激を用いてもよい。聴覚的な刺激は、共感度を、音の高さや音の大きさで表したものでもよいし、周期的な音のリズムで表してもよい。あるいは共感度が高い状態では心地よい音楽や音を流し、共感度が低い状態では不快な音楽や音を流してもよい。

【0048】
またフィードバックには体性感覚的な刺激を用いてもよい。体性感覚的な刺激は、共感度を、振動の大きさあるいは強さで表したものであってもよいし、周期的な振動のリズムで表してもよい。

【0049】
フィードバック部40は、参加者のこれまでの心的状態等を、フィードバックするために設けられるが、このフィードバック部40を、参加者の将来の共感状態の改善に利用することができる。たとえば、複数の参加者の間で、身体運動を同調させると、共感度が改善することが分かっている。そこで、フィードバック部40は、視覚的な刺激、聴覚的な刺激、体性感覚的な刺激のいずれかあるいはそれらの組み合わせによって、複数の参加者にリズムを提供してもよい。これにより、複数の参加者の同調状態を高めることができ、ひいては共感状態を高めることができる。

【0050】
ここで提供するリズムは、複数の参加者から抽出され、それらの多数の間で共有されるリズムとすることが望ましい。このリズムは、コミュニケーションの場において顕在化していることは希であり、人間がそれを知覚することは難しいが、コミュニケーション解析装置2によってそのようなリズムを抽出し、それを視覚的な刺激、聴覚的な刺激、体性感覚的な刺激として、明示的にあるいは強調して、参加者に提示することで、そのリズムを共有していない他の参加者が、提示されたリズムに同調し、ひいては同調状態を高めることが可能となる。

【0051】
一実施例において「複数の参加者に共有されるリズム」とは、複数の参加者が単に物理的に同調しているリズムであってもよい。別の実施例において、「複数の参加者に共有されるリズム」とは、単に複数の参加者が物理的に同調していることに留まらず、それに同調する参加者の心的状態が肯定的であるようなリズムをいう。

【0052】
多くの参加者が存在するコミュニケーションの場においては、参加者すべての組み合わせについて、1対1の同調度を評価してもよい。この評価により、同調度のマトリクスを生成することができる。そしてこのマトリクスから、高い同調度で結びつく複数の参加者のクラスター(グループ)を推定することができる。この場合において、このクラスターに含まれる参加者が同調する共通のリズムを抽出し、そのリズムを、このクラスターに含まれない参加者に提示してもよい。

【0053】
あるいは多くの参加者が存在するコミュニケーションの場においては、参加者すべての組み合わせについて、1対1の心的状態(共感度、一体感、合意度のいずれか、あるいはその組み合わせ)を評価してもよい。この評価により、心的状態のマトリクスを生成することができる。そして、このマトリクスから、肯定的な心的状態で結びつく複数の参加者のクラスター(グループ)を推定することができる。この場合において、このクラスターに含まれる参加者が同調する共通のリズムを抽出し、そのリズムを、このクラスターに含まれない参加者に提示してもよい。

【0054】
解析評価部30は、参加者の喜怒哀楽などの情動を解析し、評価してもよい。

【0055】
コミュニケーション解析装置2は、複数の項目を評価してもよい。また、項目ごとにフィードバックを行ってもよい。

【0056】
以上がコミュニケーション解析装置2の基本構成である。

【0057】
本発明は、図1のブロック図として把握され、あるいは上述の説明から導かれるさまざまな装置、回路に及ぶものであり、特定の構成に限定されるものではない。以下、本発明の範囲を狭めるためではなく、発明の本質や回路動作の理解を助け、またそれらを明確化するために、より具体的な構成例や実施例を説明する。

【0058】
図2は、コミュニケーション解析装置2を構成する測定・フィードバック装置100を示す図である。測定・フィードバック装置100は、図1のマイク10、カメラ20、フィードバック部40に加えて、インタフェースユニット50、信号処理部60をひとつの筐体にパッケージ化したデバイス(モジュール)である。測定・フィードバック装置100はテーブルトップサイズであり、会議などのコミュニケーションに参加する複数の参加者の中央に置かれる。

【0059】
測定・フィードバック装置100は、ドーム状の透明部分102を有する筐体104と、筐体104の下部に設けられたベース106を備える。ドーム状の部分102の内側には、カメラ20が設けられる。カメラ20は、全方位(全天球)カメラであり、測定・フィードバック装置100を取り囲むすべての参加者の画像を撮影する。

【0060】
また筐体104には、放射状に配置された複数のマイク10が設けられており、複数の参加者の発話を電気信号に変換する。

【0061】
信号処理部60はたとえばマイコンやCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などであり、測定・フィードバック装置100を統合的に制御する。たとえば信号処理部60は、マイク10が取得したオーディオ信号をデジタル信号に変換し、必要に応じて圧縮する。また信号処理部60は、カメラ20が取得した画像データを必要に応じて圧縮する。

【0062】
インタフェースユニット50は、有線あるいは無線で外部のコンピュータ200と接続されている。コンピュータ200は、図1の解析評価部30に対応しており、デスクトップあるいはラップトップコンピュータであってもよいし、ネットワークサーバーやクラウドコンピュータであってもよい。

【0063】
インタフェースユニット50は、ブルートゥース(登録商標)モジュールやWLANモジュール、USBモジュールであってもよい。インタフェースユニット50は、外部のコンピュータ200に音声データSおよび画像データSを送信する。

【0064】
測定・フィードバック装置100には、図1のフィードバック部40として、ひとつまたは複数のスピーカ42と、ひとつまたは複数のインジケータランプ44が設けられる。またフィードバック部40は、振動モータなどの振動発生装置を備えてもよい。

【0065】
インタフェースユニット50は、コンピュータ200からコミュニケーションの評価結果にもとづくフィードバックデータSを受信する。信号処理部60は、フィードバックデータSにもとづいて、スピーカ42を駆動、制御し、フィードバックデータSに応じたビープ音や音声を出力させる。また信号処理部60は、フィードバックデータSにもとづいて、インジケータランプ44を駆動、制御する。

【0066】
好ましくは測定・フィードバック装置100にはさらに、測定・フィードバック装置100と各参加者との距離を測定する測距センサ70が設けられる。測距センサ70は、光学式(レーザ式)、超音波式などを用いることができる。測定された参加者と測定・フィードバック装置100との間の距離情報Sは、画像データSとともにインタフェースユニット50からコンピュータ200に送信される。後述するように距離情報Sは、全方位カメラによって取得された画像の歪みを補正するために使用される。

【0067】
図1に示したコミュニケーション解析装置2の構成要素の内、解析評価部30以外の部分を、ひとつの測定・フィードバック装置100にパッケージ化あるいはモジュール化することにより、測定・フィードバック装置100の可搬性、設置性が大幅に高まる。カメラ(あるいはマイク)を会議室に設備として固定的に設置すると、その会議室が使えない場合に、コミュニケーション解析装置2を利用できなくなる。測定・フィードバック装置100を利用すれば、場所的制約、時間的制約が大幅に緩和されるため、コミュニケーション解析装置2の使用機会を増やすことができる。

【0068】
図3は、コミュニケーション解析装置2の具体的な機能ブロック図である。太枠は、ハードウェアに対応し、細枠は解析評価部30に実装されるソフトウェアによる処理ブロックを示す。

【0069】
歪み補正部400は、各参加者の画像データを抽出し、測距センサ70が測定した各参加者までの距離情報にもとづいて、各参加者の画像データの歪みを補正する。歪みの補正された画像データは、後段の処理手段に提供される。

【0070】
表情認識部402は、各参加者の表情を認識する。顔認証部404は、各参加者の画像データから、個人を特定する。

【0071】
信号源分離部300は、複数のマイク10からの音声信号にブラインド音源分離を適用して各々の発話音声を抽出する。声紋認識部302は、マイクからの音声信号を、予め取得された各参加者の声紋と照合(パターンマッチング)し、参加者を識別する。

【0072】
音声認識部304は、音声から発話内容をテキスト情報等に変換する。

【0073】
参加者識別部500は、顔認証部404による認証結果、声紋認識部302による識別結果、口唇の動き、発話者の位置推定結果から発話者を同定する。

【0074】
情動推定部502は、表情認識部402が認識した表情および音声認識部304による認識結果にもとづいて、各参加者の情動を推定する。

【0075】
骨格モデル推定部504は、骨格モデルにもとづいて、参加者の姿勢やしぐさを推定する。視線推定部506は、参加者がどの方向に視線を向けているかを推定する。

【0076】
コミュニケーション評価部508は、音声認識部304からの発話内容、情動推定部502からの情動情報、骨格モデル推定部504からの骨格情報(動き)、視線推定部506からの視線情報のいずれか、あるいは複数の組み合わせにもとづいて、コミュニケーションの評価指標(たとえば上述の参加度、関心度、心的状態)などを評価する。評価結果はフィードバック部40に出力される。

【0077】
議事録生成部510は、音声認識部304からのテキスト情報と、参加者識別部500が特定した参加者とに基づいて、どの参加者がいつ何を発言したかを記録した議事録を生成する。この議事録には、各発言や会話と対応付けて、時々刻々と変化するコミュニケーション評価部508による評価結果を記録することが望ましい。これにより、後から議事録を読み直す際に、どのような議題や発言に、各参加者の関心や注意が集まっていたのかを知ることができ、次のコミュニケーションの場に反映させることができる。

【0078】
以上、本発明について、実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、こうした変形例について説明する。

【0079】
(変形例1)
実施の形態では、全方位型の単一のカメラで複数の参加者の映像を取得したがその限りではなく、複数のカメラを用いてもよい。この場合、測定・フィードバック装置100には放射状に配置された複数のカメラが設けられ、カメラが取得した画像の歪みが小さい場合、測距センサは省略してもよい。

【0080】
(変形例2)
図2に示した測定・フィードバック装置100の構成は一例であり、それに限定されない。たとえば複数のマイク10、複数の測距センサ70、複数のスピーカ42や複数のインジケータランプ44の配置は限定されない。また複数のマイク10に換えて、ひとつあるいは複数の可変指向性のマイクを用いてもよい。

【0081】
(変形例3)
フィードバック部40は、個々の参加者に取り付け可能なウェアラブルデバイスであってもよい。この場合、他の参加者に気づかれないように、特定の参加者にフィードバックを与えることができる。たとえば参加者に取り付け可能なデバイスとしては、振動によるフィードバックを与えるバイブレータや、音声によるフィードバックを与えるイヤホン、映像によるフィードバックを与えるヘッドマウントディスプレイなどが例示される。

【0082】
(変形例4)
また、コミュニケーション解析装置2のマイク10、カメラ20、フィードバック部40は、ひとつの測定・フィードバック装置100にモジュール化することが望ましいがその限りではない。たとえばフィードバック部40として、ウェアラブルデバイスを用いる場合、マイク10とカメラ20のみを測定・フィードバック装置100に実装してもよい。

【0083】
(変形例5)
またフィードバック部40にウェアラブルデバイスを用いる場合、マイク10をウェアラブルデバイスと一体化してもよい。この場合、音声の分離が容易となり、声紋判定も不要となる。

【0084】
(変形例6)
図4は、フィードバック部40の別の一例を示す図である。フィードバック部40は、ヒューマノイドロボットであり、身振りや手振りが可能に構成されている。ヒューマノイドロボットは、頷き運動(矢印i)や腕振り運動(矢印ii)が可能であってもよく、頷きや腕振り運動によって、参加者にリズムを提示してもよい。ヒューマノイドロボットが提示するリズムに参加者が同調することにより、共感度を改善することができる。ヒューマノイドロボットの頭部に、全方位カメラ20を搭載してもよい。また、図2に示したインジケータランプ44やスピーカ42も適切な箇所に設けられる。

【0085】
さらにヒューマノイドロボットは、体もしくは顔の向きを変化させることができ(矢印iii)、発話者の方向に向くように制御されてもよい。また、ある参加者に警告を与える場合、その参加者の方を向くように制御されてもよい。

【0086】
フィードバック部40を人型とすることで、図2のような無機的な外観とした場合よりも、よりコミュニケーションの質を高められることが期待される。

【0087】
フィードバック部40を自走可能とし、共感度が低い参加者の前にフィードバック部40を移動させ、その参加者にリズム等を提示するとよい。

【0088】
(変形例7)
複数の参加者の身体運動は、以下のように取得してもよい。カメラ20によって撮像した画像フレームを、参加者4ごとの分割フレームに切り分ける。図5は、360度カメラによって撮影した1フレームの画像データを示す図である。分割フレームには、参加者4の頭から胸部が含まれることが望ましい。そして分割フレームの輝度値を積算し、得られる積算値の時間波形を取得する。時間波形は必要に応じてローパスフィルタによるフィルタリング処理を行うことが好ましい。カットオフ周波数は4Hz程度としてもよい。

【0089】
図6(a)は、2人の被験者について行った予備実験の結果を示す図である。図6(a)には、異なる条件で測定された、対応する2つの分割フレームの輝度積算値の時間波形が示される。被験者2名にはそれぞれ役割Aと役割Bが割り振られ対面し、360度カメラを用いて意図的な身体運動を3つの条件毎に計測する。役割Aは全ての計測において、1分間に40回の間隔で100回うなずく。役割Bは
条件1:役割Aと全て同じタイミングでうなずく。
条件2:役割Aのうなずきと同じタイミングで、2回に1回うなずく。
条件3:一度もうなずかない。
という条件に従う。

【0090】
図6(b)は、条件1~3ごとに、役割Aと役割Bの輝度変化量の相関係数をFisherのZ変換を用い、さらにバートレット補正をかけることで得られたZ値を示す。図6から、意図的にうなずいたときの動作が、輝度変化量の波形として現れている。このことから、360度カメラによる計測と提案手法による解析で、身体運動は十分に評価することができるということを示している。

【0091】
(行動実験について)
行動実験では、被験者AとサクラB(あるいはC)が机を挟んで向いあって座り、お互いの顔を見ながら自身の顔の前で手を叩く。実験条件、同期条件と非同期条件の2つあり、それぞれ、「AとB」のペア、「AとC」のペアで行われる。

【0092】
同期条件では、被験者AはサクラBの顔を見ながら顔の前で手を1秒間に1回程度の頻度で叩く。この際、サクラBは被験者Aに合わせて手を叩く。非同期条件では、被験者AはサクラCの顔を見ながら顔の前で手を1秒間に1回程度の頻度で叩く。この際、サクラCは被験者に合わせないで手を叩く。

【0093】
実験後、被験者Aに質問紙を配布し、サクラBとCに対する印象を回答させ、AがBに対しては好感を持ち、C対しては嫌悪感を抱いているかどうかを確認した。図7(a)、(b)は、同期条件、非同期条件における結果を示す図である。

【0094】
図7(a)に示すように同期条件では印象が改善する傾向が見られ、図7(b)に示すように、非同期条件では印象に影響を与えない傾向が見られた。

【0095】
この行動実験は、上述したフィードバック部40によるリズムの提示が、その提示を受けた参加者がそのリズムに同調し、その結果、当該参加者の共感度を高めたりしうることを裏付けるものである。

【0096】
<頷きについての実験>
頷きと共感度の関係について発明者らが行った実験について説明する。図8(a)~(c)は、対面コミュニケーションにおける、共感度と身体運動の関係を示す図である。身体運動は、加速度センサによって測定したものである。図8(a)は共感的でない状態を、図8(b)は共感的な状態を示す。図8(a)~(c)に示す身体運動には、頷き運動の他、笑いなどが含まれるが、それらは振動数にもとづいて区別することができる。この例では、1~4Hzの成分は頷き、4Hz以上の成分は笑いを表している。

【0097】
縦軸は2人の身体運動の位相差を表しており、負の位相は、話し手の位相が進んだ状態を、正の位相は、聞き手の位相が進んだ状態を意味する。横軸には頷き運動の振動数をとっている。図8(c)は、図8(a)と図8(b)の差分をプロットしたものである。図8(c)において、頷き運動を表す2~4Hzに着目すると、位相が正の領域の領域において差分が大きくなっている。すなわち、2人が共感的な状態となると、2人の頷き運動が同調し、さらに聞き手の方の位相が、話しての位相よりも進むことが分かる。

【0098】
この知見にもとづいて、2人の、あるいはより多くの対面コミュニケーションにおける共感状態を、身体運動(それに含まれる頷き運動)にもとづいて評価し、数値化し、あるいは可視化することができる。

【0099】
<視線についての実験>
視線と共感度の関係について発明者らが行った実験について説明する。図9(a)、(b)は、対面コミュニケーションにおける、共感度と視線運動の関係を示す図である。図9(a)は、共感的でない状態と共感的な状態における相互凝視の発生を示す波形図である。図9(b)は、共感的でない状態と共感的な状態における相互凝視の割合を示す。この実験から、共感状態と相互凝視が相関を有することが示唆される。この知見にもとづいて、2人の、あるいはより多くの対面コミュニケーションにおける共感状態を、視線運動にもとづいて評価し、数値化し、あるいは可視化することができる。

【0100】
<ロボットを用いた共感度の改善の実験>
図10は、ロボットを用いた実験の様子を示す図である。被験者とロボットが対面し、被験者はロボットに対して話しかける。ロボットは、(i)全く動かない状態(応答なしモード)と、(ii)被験者に同調して動く(頷く)状態(相互作用モード)が切替可能である。2つの状態は各5分であり、それらの間には5分のインターバルを挟んだ。この実験は日本語を母国語とする5人の参加者を被験者として行った。ロボットの運動は、被験者の運動に同調するように、周波数と位相がフィードバックにより制御される。

【0101】
図11(a)、(b)は、図10の実験結果を示す図である。図11(a)はアンケートの集計結果を示す。5人の参加者に、自然さ(Naturalness)と合意形成(Consensus Building)の2項目について回答を得た。自然さに関して、相互作用モードでは、3名の参加者が、「いくぶん自然(Somewhat Nuaural)」と回答し、2名の参加者が、「いくぶん不自然(Somewhat Unnuaural)」と回答した。応答なしモードでは、2名の参加者が、「いくぶん不自然(Somewhat Unnuaural)」と回答し、3名の回答者が「不自然(Unnuaural)」と回答した。合意形成に関して、相互作用モードでは、3名の参加者が、「いくぶん合意的(Somewhat Consensual)」と回答し、2名の参加者が、「いくぶん非合意的(Somewhat Not Consensual)」と回答した。応答なしモードでは、1名の参加者が、「いくぶん非合意的」と回答し、3名の回答者が「非合意的」と回答した。

【0102】
図11(b)は、2つのモードで、Naturalnessと合意形成の2項目それぞれについて重み付け平均値をスコアリングしたものである。「自然」、「いくぶん自然」、「いくぶん不自然」、「不自然」の重み付けの係数は、順に4,3,2,1である。同様に「合意的」、「いくぶん合意的」、「いくぶん非合意的」、「非合意的」の重み付け係数は順に4,3,2,1である。ロボットからの反応が返ってくる相互作用モードでは、応答なしモードに比べて、高いスコアが得られている。この実験から、対面コミュニケーションの場に、ヒューマノイドロボットを導入することにより、参加者の共感度の改善に役立つことがわかる。

【0103】
(補遺)
コミュニケーションは人々が社会生活を営む上で必須な要素の一つである。近年、ウェアラブルデバイス製造技術や人工知能技術、IoT技術等の進展により、人間のコミュニケーションに対する支援技術への関心が高まりつつある[1,2,3]。

【0104】
人間のコミュニケーションは大きく分けて二つのチャネルを用いて行われることが知られている。それは顕在的なチャネルと潜在的なチャネルである[4]。顕在的なチャネルを介したコミュニケーションは主として言語であり、その特徴については多方面から研究されている。例えば、脳の作動記憶のモデルを利用すると言語的複雑さによって文章理解に制限が生じること[5]、言語的特徴から感情の推定を行う方法が提案されていること[6]等である。

【0105】
一方、潜在的なチャネルを介したコミュニケーションは顕在的なチャネルを介したコミュニケーションの基盤となるものである。例えば姿勢、頷き、顔の表情、視線、周辺言語、相手との物理的な距離のとり方、人工物などが挙げられる[7]。これらの非言語的な行動は、人間同士の対面コミュニケーションでは65%ほど寄与するとも言われている[8]。非言語的行動は無意識に現れ、感情や情動といった内的状態と関係があると言われている[9,10]。例えば、恐怖感と周辺言語、脳の左前頭野との関連性[11]や、痛覚の共感能力と脳活動との関連性が報告されている [12]。

【0106】
非言語コミュニケーションの特徴として、人間同士の様々な社会的コミュニケーションの際に、身体動作や周辺言語が同調するという現象が報告されている。例えば、母親と幼児[13,14]、内科医と患者[15]、教師と生徒[16,17]、心理カウンセラーとクライアント[18]などである。

【0107】
このような同調現象は、心理作用にも関連性がある事が近年示唆されている。例えば、身体同調と心理カウンセリングの満足度に関する報告や[19,20]、経済ゲームの参加者同士の協調性と共感に関する脳の反応に関する報告[21]、チーム内の雰囲気や協調性が生産性へ関連するという報告[22]がある。

【0108】
一方で、同調現象の脳神経科学的裏付けも明らかとなりつつある。例えば、対面コミュニケーション中の参与者の脳活動が同調すること[23]や、身体運動の同調と脳活動の同調の関連性が報告されている[24]。このように、様々な社会的文脈や環境で言語・非言語コミュニケーションが交わされる中では、コミュニケーション参与者の状況や意図、伝達内容がお互いに理解され、共感しあうことと、同調現象が生じることには、なにがしかの関係性が存在すると推察される。

【0109】
その中で、通信デバイスを用いた遠隔コミュニケーションでは身体同調の仕方が対面コミュニケーションの時と変化することや[25]、身体同調の種類とタイミングの研究[26]、映像解析を用いて被験者の運動エネルギーを解析する事で身体同調の程度を探ろうとする研究[27]など、より多面的な身体同調現象の観測が少しずつ進んできている。

【0110】
[文献リスト]
1. the World Economic Forum's Meta-Council on Emerging Technologies, "Top 10 Emerging Technologies of 2016", World Economic Forum, 2016; 13 p.
2. D. Lazer, Alex (Sandy) Pentland, "Life in the network: the coming age of computational social" Science 2009; 323(5915):721-723.
3. A. Barrat, C. Cattuto, "Measuring contact patterns with wearable sensors: methods, data characteristics and applications to data-driven simulations of infectious diseases", Clinical Microbiology and Infection, 2014: 20: 10-16.
4. Tickle-Degnen L, Rosenthal R, "The nature of rapport and its nonverbal correlates" Psychol Inq. 1990;1: 285-293.
5. R. L. Lewis, S. Vasishth, "Computational principles of working memory in sentence comprehension, "Trends in Cognitive Sciences, 2006; 10(10): 447-454.
6. S. Wu, T. H. Falk "Automatic speech emotion recognition using modulation spectral features", Speech Communication, 2011; 53: 768-785.
7. M. Vargus, "Louder than Words - An Introduction to Nonverbal Communication-", Iowa state University Press, 1987; 32 p.
8. R.L. Birdwhistell, "Kinesics and context: Essays on body motion communication", University of Pennsylvania Press 1970; 86-87 p.
9. V.P. Richmond et al., "Nonverbal Behavior in Interpersonal Relations", Allyn and Bacon, Boston: Pearson Education, 2008; 366 p.
10. J.L. Lakin, "Automatic Cognitive Progress and Nonverbal Communication", The SAGE Handbook of Nonverbal Communication, 2006, 59-77.
11. J.S. Morris, S.K. Scott, R.J. Dolan "Saying it with feeling: neural responses to emotional vocalizations", Neuro psychologia 1999; 37, 1155-1163.
12. P. L. Jackson, A. N. Meltzoff, J. Decety "How do we perceive the pain of others? A window into the neural processes involved in empathy", NeuroImage, 2005, 24,771-779.
13. Meltzoff, Moore MK., "Newborn infants imitate adult facial gestures", Child Dev. 1983; 54: 702-709.
14. Bernieri FJ, Reznick S, Rosenthal R. "Synchrony, pseudosynchrony, and dissynchrony: measuring the entrain ment process in mother-infant interaction", Journal of Personality and Social Psychology, 1988; 54: 243-253.
15. Koss T, Rosenthal R, "Interactional synchrony, positivity and patient satisfaction in the physician-patient relationship", Med Care, 1997; 35: 1158-1163.
16. Bernieri FJ, "Coorinated movement and rapport in teacher-student interactions", J Nonverbal Behav, 1988; 12: 120-138.
17. Lafrance M, Broadbent M. "Group Rapport: posture sharing as a nonverbal indicator", Group Organization Studies, 1988; 1: 328-333.
18. Ramseyer F, Tschacher W., "Synchrony: a core concept for a constructivist approach to psychotherapy. Constructivism in the Human Sciences", Constructivism in the Human Sciences, 2006; 11: 150-171.
19. Ramsyer F, Tschacher W., "Nonverbal synchrony of head- and body-movement in psychotherapy: different signals have different associations with outcome" Front Psychol , 2014; 5: 1-9.
20. Komori M, Nagaoka C. "The relationship between body movements of clients and counsellors in psychotherapeutic counselling: a study using the video-based quantification method", Jap J of Cog Psychol. 2010; 8: 1-9.
21. Tania Singer, "Empathic neural responses are modulated by the perceived fairness of others", Nature 2006; 439(26): 466-469.
22. Barsade, SG "The ripple effect: Emotional contagion and its influence on group behavior", Administrative Science Quality, 2002; 47: 644-675.
23. G. J. Stephen, "Speaker-listener neural coupling underlies successful communication", PNAS, 2010; 107(32): 14425-14430.
24. K. Yun, "Interpersonal body and neural synchronization as a marker of implicit social interaction", Scientific Reports 2012; 2: 959.
25. J. Kwon, "Detection of Nonverbal Synchronization through Phase Difference in Human Communication", PLos One, 2015; 10; 1371.
26. M. M. Louwerse, "Behavior Matching in Multimodal Communication Is Synchronized", Cognitive Science, 2012;36: 1404-1426.
27. Y. Hart, "Automated Video Analysis of Non-Verbal Communication in a Medical Setting", frontiers in Psychology, 2016;7: 1130.

【0111】
実施の形態にもとづき、具体的な語句を用いて本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎず、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が認められる。
【符号の説明】
【0112】
2…コミュニケーション解析装置、4…参加者、10…マイク、20…カメラ、30…解析評価部、40…フィードバック部、42…スピーカ、44…インジケータランプ、50…インタフェースユニット、60…信号処理部、70…測距センサ、100…測定・フィードバック装置、102…ドーム状の部分、104…筐体、106…ベース、300…信号源分離部、302…声紋認識部、304…音声認識部、400…歪み補正部、402…表情認識部、404…顔認証部、500…参加者識別部、502…情動推定部、504…骨格モデル推定部、506…視線推定部、508…コミュニケーション評価部、510…議事録生成部。
【産業上の利用可能性】
【0113】
本発明は、コミュニケーションを解析する技術に関する。
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図9】
8
【図10】
9
【図11】
10