TOP > 国内特許検索 > 音声対話方法、及び音声対話システム > 明細書

明細書 :音声対話方法、及び音声対話システム

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第6270661号 (P6270661)
公開番号 特開2016-038501 (P2016-038501A)
登録日 平成30年1月12日(2018.1.12)
発行日 平成30年1月31日(2018.1.31)
公開日 平成28年3月22日(2016.3.22)
発明の名称または考案の名称 音声対話方法、及び音声対話システム
国際特許分類 G10L  13/10        (2013.01)
G10L  13/00        (2006.01)
G10L  13/033       (2013.01)
G10L  15/02        (2006.01)
FI G10L 13/10 114
G10L 13/00 100M
G10L 13/10 111C
G10L 13/033 102A
G10L 15/02 300K
請求項の数または発明の数 7
全頁数 12
出願番号 特願2014-162579 (P2014-162579)
出願日 平成26年8月8日(2014.8.8)
新規性喪失の例外の表示 特許法第30条第2項適用 (1)平成26年2月26日一般社団法人 人工知能学会発行の「ISSN 0918-5682,人工知能学会研究会資料,SIG-SLUD-B303,言語・音声理解と対話処理研究会(第70回)」に掲載 (2)平成26年3月5日開催の「第70回 人工知能学会 言語・音声理解と対話処理研究会(SIG-SLUD)」にて発表
審査請求日 平成28年10月7日(2016.10.7)
特許権者または実用新案権者 【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
発明者または考案者 【氏名】河原 達也
【氏名】渡部 生聖
【氏名】中野 雄介
個別代理人の代理人 【識別番号】100103894、【弁理士】、【氏名又は名称】家入 健
審査官 【審査官】鈴木 圭一郎
参考文献・文献 特開2004-086001(JP,A)
特開2011-217018(JP,A)
特開2002-041084(JP,A)
特開平11-175082(JP,A)
特開2003-228449(JP,A)
東海林圭輔,対話に関するリズムや同調作用を考慮した音声対話システム,情報処理学会研究報告,日本,一般社団法人情報処理学会,2006年 5月11日,Vol.2006 No.40,p43-48
西村良太,応答タイミングを考慮した雑談音声対話システム A spoken dialog system for chat-like conversations considering response timing,第46回 言語・音声理解と対話処理研究会資料,日本,一般社団法人人工知能学会,2006年 3月 3日,SIG-SLUD-A503,p21-26
調査した分野 G10L 13/00-13/10
G10L 15/00-15/34
G10L 17/00-17/26
特許請求の範囲 【請求項1】
ユーザ発話を入力する工程と、
入力された前記ユーザ発話の韻律的特徴を抽出する工程と、
抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する工程と、を備え、
前記ユーザ発話の韻律的特徴を抽出する際、前記ユーザ発話の基本周波数成分およびパワー成分を抽出し、
前記パワー成分は、当該パワー成分の最大値および平均値を含み、
前記相槌を生成する際、前記基本周波数成分および前記パワー成分のうち、前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関が高い成分を用いて、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する、
音声対話方法。
【請求項2】
前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関を示す相関係数テーブルを予め生成し、
前記基本周波数成分および前記パワー成分のうち、前記相槌についての相関係数が高い成分を優先的に用いて前記相槌の韻律を調整する、
請求項に記載の音声対話方法。
【請求項3】
前記基本周波数成分は、当該基本周波数成分の最大値および平均値を含、請求項またはに記載の音声対話方法。
【請求項4】
前記相槌を生成する際、下記の式を用いて、前記基本周波数成分の最大値、平均値、及び前記パワー成分の最大値、平均値の各々について韻律調整パラメータBCipを求め、当該韻律調整パラメータBCipを用いて前記相槌の韻律を調整する、請求項に記載の音声対話方法。
【数1】
JP0006270661B2_000003t.gif
上記式において、αは相関係数、Sはユーザ発話の韻律的特徴、iはサンプル数、E(S)はユーザ発話の韻律的特徴の平均値、E(BC)は相槌の韻律的特徴の平均値、σ(S)はユーザ発話の韻律的特徴の標準偏差、σ(BC)は相槌の韻律的特徴の標準偏差である。
【請求項5】
前記ユーザ発話の韻律的特徴を用いて前記相槌を生成するタイミングを決定する工程を更に備え、
前記ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、前記相槌を生成する、
請求項1乃至のいずれか一項に記載の音声対話方法。
【請求項6】
前記相槌には感情表出系の相槌と応答系の相槌とが含まれており、
前記ユーザ発話が発話中である場合、前記応答系の相槌を選択し、
前記ユーザ発話が終了している場合、前記感情表出系の相槌を選択する、
請求項1乃至のいずれか一項に記載の音声対話方法。
【請求項7】
ユーザ発話を入力する発話入力部と、
前記発話入力部に入力された前記ユーザ発話の韻律的特徴を抽出する韻律的特徴抽出部と、
前記韻律的特徴抽出部で抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する相槌生成部と、を備え、
前記韻律的特徴抽出部は、前記ユーザ発話の韻律的特徴を抽出する際、前記ユーザ発話の基本周波数成分およびパワー成分を抽出し、
前記パワー成分は、当該パワー成分の最大値および平均値を含み、
前記相槌生成部は、前記相槌を生成する際、前記基本周波数成分および前記パワー成分のうち、前記ユーザ発話の韻律的特徴と前記相槌の韻律的特徴との相関が高い成分を用いて、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する、
音声対話システム。
発明の詳細な説明 【技術分野】
【0001】
本発明は音声対話方法、及び音声対話システムに関する。
【背景技術】
【0002】
音声対話システムや人型ロボットにおいては、高齢者や認知症などの患者のケアを行うニーズが高まっており、傾聴する機能が要求されている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要である。
【0003】
特許文献1には、自然で円滑な対話を実現できる音声認識装置に関する技術が開示されている。特許文献1に開示されている音声認識装置では、音声入力部に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカから相槌音を出力させる相槌タイミングを推測している。そして、相槌タイミングであるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定している。
【先行技術文献】
【0004】

【特許文献1】特開2009-3040号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示されている技術では、相槌を打つタイミングについてのみ焦点が置かれており、実際に打たれている相槌は同一の音声となっている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要であるが、相槌の音声が同一である場合は、ユーザに機械的な印象を与えてしまい、ユーザは話を聞いてもらっているという意識を持つことができない。このため、ユーザの発話が促進されないという問題があった。
【0006】
上記課題に鑑み本発明の目的は、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することである。
【課題を解決するための手段】
【0007】
本発明にかかる音声対話方法は、ユーザ発話を入力する工程と、入力された前記ユーザ発話の韻律的特徴を抽出する工程と、抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する工程と、を備え、前記相槌を生成する際、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する。
【0008】
本発明にかかる音声対話システムは、ユーザ発話を入力する発話入力部と、前記発話入力部に入力された前記ユーザ発話の韻律的特徴を抽出する韻律的特徴抽出部と、前記韻律的特徴抽出部で抽出された前記韻律的特徴に基づき前記ユーザ発話に応答する相槌を生成する相槌生成部と、を備え、前記相槌生成部は、前記相槌の韻律的特徴が前記ユーザ発話の韻律的特徴と合うように前記相槌の韻律を調整する。
【0009】
本発明にかかる音声対話方法および音声対話システムでは、ユーザ発話の韻律的特徴を抽出し、相槌を生成する際に、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように相槌の韻律(音声波形)を調整している。このように相槌の韻律を調整することで、ユーザに機械的な印象を与えることを抑制することができ、ユーザは話を聞いてもらっているという意識を持つことができ、ユーザの発話を促すことができる。
【発明の効果】
【0010】
本発明により、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することができる。
【図面の簡単な説明】
【0011】
【図1】実施の形態にかかる音声対話システムを示すブロック図である。
【図2】実施の形態にかかる音声対話方法を説明するためのフローチャートである。
【図3】ユーザと音声対話システムとが対話している状態を示す図である。
【図4】ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを示す図である。
【図5】ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルの一例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施の形態について説明する。
図3は、ユーザと音声対話システムとが対話している状態を示す図である。図3に示すように、本実施の形態にかかる発明は、ユーザ31がロボット(音声対話システム)32と対話する際に、ロボット32が、ユーザ31の発話を促進させる相槌を発することを特徴としている。つまり、本実施の形態にかかる発明では、ユーザ31の発話の音声波形33から韻律的特徴を抽出し、相槌を生成する際に、相槌の音声波形34の韻律的特徴がユーザ31の発話の音声波形33の韻律的特徴と合うように相槌の韻律(音声波形34)を調整することを特徴としている。以下で、本実施の形態にかかる音声対話方法、及び音声対話システムについて詳細に説明する。

【0013】
図1は、本実施の形態にかかる音声対話システムを示すブロック図である。図1に示すように、本実施の形態にかかる音声対話システム1は、発話入力部11、韻律的特徴抽出部12、相槌生成タイミング決定部13、相槌データベース15、相槌選択部16、韻律調整パラメータ生成部17、相槌波形生成部18、及び相槌出力部19を備える。相槌データベース15、相槌選択部16、韻律調整パラメータ生成部17、及び相槌波形生成部18は、相槌生成部14を構成している。

【0014】
発話入力部11は、ユーザの発話を入力する。例えば、発話入力部11はマイク等を用いて構成することができる。

【0015】
韻律的特徴抽出部12は、発話入力部11に入力されたユーザ発話(先行発話)の韻律的特徴を抽出する。韻律的特徴としては、ユーザ発話の基本周波数成分F0(以下、単にF0と記載する場合もある)やパワー成分が挙げられる。このとき、基本周波数成分F0として、F0の対数を用いてもよい。例えば、F0の対数は、発話音声を用いて10m秒毎にF0を算出し、この算出されたF0に対して10を底とする対数を取ることで求めることができる。また、パワー成分についても、例えば10m秒毎にdB値を算出することで求めることができる。韻律的特徴抽出部12は、抽出した韻律的特徴21を相槌生成タイミング決定部13に出力する。

【0016】
また、韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された際、相槌選択部16に相槌選択信号23を出力する。

【0017】
また、韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された際、相槌生成タイミングから所定の時間さかのぼった期間(例えば、500m秒)における基本周波数成分F0の最大値、平均値、最大値と最小値のレンジ等、及びパワー成分の最大値、平均値、最大値と最小値のレンジ等の特徴量を算出する。算出された特徴量24は、韻律調整パラメータ生成部17に供給される。

【0018】
相槌生成タイミング決定部13は、韻律的特徴抽出部12で抽出された韻律的特徴21を用いて、相槌を生成するタイミングを決定する。また、相槌生成タイミング決定部13は、相槌を生成するタイミングを決定した場合、相槌生成タイミング情報22を韻律的特徴抽出部12に出力する。

【0019】
例えば、相槌生成タイミング決定部13は、ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、相槌を生成するタイミングであると決定することができる。つまり、ユーザが発話が終了したタイミングでは、ユーザ発話のパワー成分がほぼゼロになるので、このタイミングを相槌を生成するタイミングであると決定することができる。また、ユーザ発話が途中の場合であっても、ユーザ発話のパワー成分が小さい場合は、ユーザ発話の終了が近づいていると判断することができる。よって、このような場合も、相槌を生成するタイミングであると決定することができる。

【0020】
なお、上記では、ユーザ発話の韻律的特徴としてパワー成分を用いた場合を例として挙げたが、例えば、ユーザ発話の基本周波数成分F0を用いて相槌を生成するタイミングを決定してもよい。例えば、相槌生成タイミング決定部13は、ユーザ発話の基本周波数成分F0が所定の閾値以下である場合に、相槌を生成するタイミングであると決定してもよい。つまり、ユーザ発話の基本周波数成分F0が所定の閾値以下である場合は、ユーザ発話のトーンが下がっている状態であるので、ユーザ発話の終了が近づいていると判断することができる。

【0021】
相槌データベース15は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを格納している。この相関係数テーブルは予め生成されている。図4は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルを示す図である。図4に示すように、相関係数テーブルは、各々の相槌(相槌の形態)と相関係数αとを対応付けたテーブルである。相関係数αは、韻律的特徴の特徴量毎に求める。つまり、相関係数αは、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値のそれぞれについて算出する。

【0022】
例えば、相関係数α(1、1)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、基本周波数成分F0の最大値を用いて求めた相関係数である。相関係数α(1、2)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、基本周波数成分F0の平均値を用いて求めた相関係数である。相関係数α(1、3)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、パワー成分の最大値を用いて求めた相関係数である。相関係数α(1、4)は、ユーザ発話(先行発話)と相槌「あー」との相関を示す相関係数のうち、パワー成分の平均値を用いて求めた相関係数である。

【0023】
相関係数は、話し役(複数のサンプル)と聞き役(カウンセラ)の対話を収録し、この収録した対話の音声を分析して、ユーザ発話と相槌との相関を相槌の形態別に調べることで推定することができる。ここで、話し役は主にユーザ発話を発し、聞き役は主に相槌を発する。相関係数を求める場合、相槌の開始から終了までの韻律的特徴と、相槌の直前のユーザ発話の有声区間(例えば、500m秒)の韻律的特徴を使用する。使用する韻律的特徴の種類は、該当区間の対数F0の最大値、平均値、及びパワー成分の最大値、平均値とすることができる。

【0024】
なお、図4に示すように、相槌の種類には感情表出系の相槌と応答系の相槌とがある。感情表出系の相槌は、「あー」、「はー」等の興味、理解、共感等の感情を示す相槌である。応答系の相槌は、「ふーん」、「はい」等の相手の発話に対する応答を示す相槌である。

【0025】
図1に示す相槌選択部16は、韻律的特徴抽出部12から相槌選択信号23が供給されると、相槌データベース15に格納されている相槌の形態の中から、所定の相槌を選択する。このとき選択される相槌は任意に決定することができる。一例を挙げると、相槌生成タイミング決定部13で決定されたタイミングがユーザ発話の途中のタイミングである場合、応答系の相槌(つまり、相手の発話に対する応答を示す相槌)の中から相槌を選択してもよい。一方、相槌生成タイミング決定部13で決定されたタイミングがユーザ発話が終了したタイミングである場合、感情表出系の相槌(つまり、興味、理解、共感等の感情を示す相槌)の中から相槌を選択してもよい。

【0026】
相槌選択部16は、選択した相槌に関する相槌情報25(例えば、テキストデータ)を相槌波形生成部18に出力する。また、相槌選択部16は、選択した相槌の相関係数に関する情報26を、韻律調整パラメータ生成部17に出力する。相槌選択部16は、相関係数に関する情報を相槌データベース15から取得することができる。相槌選択部16は、例えば、相槌として図4に示す「あー」を選択した場合、相関係数に関する情報26として、α(1、1)、α(1、2)、α(1、3)、α(1、4)の値を韻律調整パラメータ生成部17に出力する。

【0027】
韻律調整パラメータ生成部17は、相槌選択部16で選択された相槌の韻律的特徴が、ユーザ発話の韻律的特徴と合うように相槌の韻律を調整するパラメータを生成する。このとき、韻律調整パラメータ生成部17は、韻律的特徴抽出部12から供給された特徴量24と、相槌選択部16から供給された相関係数に関する情報26とを用いて、韻律調整パラメータを生成する。生成された韻律調整パラメータ27は、相槌波形生成部18に供給される。

【0028】
具体的には、韻律調整パラメータ生成部17は、下記の式を用いて韻律調整パラメータBCipを求める。このとき、韻律調整パラメータ生成部17は、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値の各々について韻律調整パラメータBCipを求める。

【0029】
【数1】
JP0006270661B2_000002t.gif

【0030】
上記式において、BCipは韻律調整パラメータ(相槌の韻律的特徴の目標値)、αは相関係数、Sはユーザ発話の韻律的特徴を示す。iはサンプル数であり、i=1、2、・・・、Nである。E(S)はユーザ発話の直前Nターンの発話(N≧1)における平均値(ユーザ発話の韻律的特徴の平均値)、E(BC)は相槌データベースにおける平均値(相槌の韻律的特徴の平均値)である。σ(S)はユーザ発話の直前Nターンの発話(N≧1)における標準偏差(ユーザ発話の韻律的特徴の標準偏差)、σ(BC)は相槌データベースにおける標準偏差(相槌の韻律的特徴の標準偏差)である。本実施の形態では、S、E(S)、E(BC)、σ(S)、σ(BC)は、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値のそれぞれについて求める。E(BC)およびσ(BC)は、相槌データベース15に予め格納されている。なお、ユーザ発話は、初対面なら直前のターンだけで推測、リピーター(かつ、ユーザ判別可能)なら過去の対話履歴全体から推測してもよい。

【0031】
例えば、相槌選択部16において相槌として「あー」が選択された場合、韻律調整パラメータ生成部17には、相関係数に関する情報26としてα(1、1)、α(1、2)、α(1、3)、α(1、4)が供給される。

【0032】
韻律調整パラメータ生成部17は、韻律的特徴抽出部12から供給されたユーザ発話の基本周波数成分F0の最大値を用いて、S、E(S)、σ(S)を求める。なお、E(BC)、σ(BC)については、相槌データベースの値を用いて求める。その後、韻律調整パラメータ生成部17は、基本周波数成分F0の最大値に対応した相関係数α(1、1)、基本周波数成分F0の最大値に対応したS、E(S)、σ(S)、E(BC)、σ(BC)を上記式に代入して、基本周波数成分F0の最大値に対応した韻律調整パラメータBCip(F0_max)を算出する。

【0033】
同様に、韻律調整パラメータ生成部17は、基本周波数成分F0の平均値に対応した韻律調整パラメータBCip(F0_ave)、パワーの最大値に対応した韻律調整パラメータBCip(P_max)、パワーの平均値に対応した韻律調整パラメータBCip(P_ave)のそれぞれを算出する。算出されたこれらの韻律調整パラメータ27は、相槌波形生成部18に供給される。

【0034】
なお、上記では4つの韻律調整パラメータBCipを求める場合について説明したが、
求める韻律調整パラメータBCipの数はこれ以外であってもよい。例えば、韻律調整パラメータ生成部17は、基本周波数成分F0およびパワー成分のうち、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関が高い成分(つまり、相関係数αが高い成分:図5を参照)について、韻律調整パラメータBCipを求めるようにしてもよい。換言すると、韻律調整パラメータ生成部17は、基本周波数成分F0およびパワー成分のうち、相槌についての相関係数が高い成分を優先的に用いて、韻律調整パラメータBCipを求めるようにしてもよい。

【0035】
図5は、ユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルの一例を示す図である。図5に示すように、各成分における相関係数は、相槌の形態に応じて異なってくる。例えば、相槌の形態が「はー」である場合は、相関係数の値が大きい「パワー成分の最大値(相関係数0.47)」および「パワー成分の平均値(相関係数0.29」のそれぞれに対応した韻律調整パラメータBCip(P_max)、BCip(P_ave)を求めてもよい。また、例えば、相槌の形態が「ふん」、「うん」である場合は、相関係数の値が大きい「基本周波数成分F0の最大値(相関係数0.22」および「パワー成分の最大値(相関係数0.23)」のそれぞれに対応した韻律調整パラメータBCip(F0_max)、BCip(P_max)を求めてもよい。このように、基本周波数成分F0の最大値および平均値、並びにパワー成分の最大値および平均値のうち、相関係数が高い成分を優先的に用いて韻律調整パラメータBCipを求めることで、韻律調整パラメータの精度を向上させることができる。また、韻律調整パラメータを求める際の演算量を低減させることができる。

【0036】
図1に示す相槌波形生成部18は、相槌選択部16で選択された相槌に関する相槌情報25(例えば、テキストデータ)と、韻律調整パラメータ生成部17で生成された韻律調整パラメータ27とを用いて、相槌の音声波形を生成する。ここで、韻律調整パラメータ27は、基本周波数成分F0の最大値に対応した韻律調整パラメータBCip(F0_max)、基本周波数成分F0の平均値に対応した韻律調整パラメータBCip(F0_ave)、パワーの最大値に対応した韻律調整パラメータBCip(P_max)、及びパワーの平均値に対応した韻律調整パラメータBCip(P_ave)の少なくとも1つである。例えば、相槌波形生成部18は、TTS(text to speech)技術を用いて相槌の音声波形を生成することができる。

【0037】
このように、相槌データベース15、相槌選択部16、韻律調整パラメータ生成部17、及び相槌波形生成部18で構成される相槌生成部14は、韻律的特徴抽出部12で抽出された韻律的特徴に基づいて、ユーザ発話に応答する相槌の音声波形を生成することができる。

【0038】
相槌波形生成部18で生成された相槌の音声波形は、相槌出力部19に供給される。相槌出力部19は、供給された音声波形に対応した相槌を出力する。例えば、相槌出力部19はスピーカ等を用いて構成することができる。これにより、ロボット(音声対話システム)32は、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように韻律が調整された相槌を出力することができる。このように相槌の韻律を調整することで、ユーザの発話を促すことができる。

【0039】
なお、本実施の形態にかかる音声対話システムでは、相槌出力部19から出力される相槌に応じてロボットが首を振るように構成してもよい。このように、相槌に合わせてロボットが首を振るようにすることで、ユーザの発話を更に促すことができる。

【0040】
次に、本実施の形態にかかる音声対話システムの動作(音声対話方法)について説明する。図2は、本実施の形態にかかる音声対話方法を説明するためのフローチャートである。なお、この場合も、相槌データベース15には、予めユーザ発話の韻律的特徴と相槌の韻律的特徴との相関を示す相関係数テーブルが格納されているものとする。

【0041】
図1、図2に示すように、まず、音声対話システム1の発話入力部11は、ユーザの発話を入力する(ステップS1)。次に、韻律的特徴抽出部12は、発話入力部11に入力されたユーザ発話(先行発話)の韻律的特徴を抽出する(ステップS2)。韻律的特徴としては、ユーザ発話の基本周波数成分F0やパワー成分が挙げられる。次に、相槌生成タイミング決定部13は、韻律的特徴抽出部12で抽出された韻律的特徴21を用いて、相槌を生成するタイミングを決定する。相槌生成タイミング決定部13が相槌生成タイミングではないと判断した場合(ステップS3:No)、再度、ステップS1~S3の動作を繰り返す。一方、相槌生成タイミング決定部13が相槌生成タイミングであると判断した場合(ステップS3:Yes)、相槌生成タイミング情報22を韻律的特徴抽出部12に出力する。例えば、相槌生成タイミング決定部13は、ユーザ発話の韻律的特徴であるパワー成分が所定の閾値以下である場合に、相槌を生成するタイミングであると決定することができる。

【0042】
韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された場合、相槌選択部16に相槌選択信号23を出力する。また、韻律的特徴抽出部12は、相槌生成タイミング決定部13から相槌生成タイミング情報22が供給された場合、相槌生成タイミングから所定の時間さかのぼった期間(例えば、500m秒)における基本周波数成分F0の最大値、平均値、最大値と最小値のレンジ等、及びパワー成分の最大値、平均値、最大値と最小値のレンジ等の特徴量を算出する。算出された特徴量24は、韻律調整パラメータ生成部17に供給される。

【0043】
相槌選択部16は、韻律的特徴抽出部12から相槌選択信号23が供給されると、相槌データベース15に格納されている相槌の形態の中から、所定の相槌(相槌の形態)を選択する(ステップS4)。また、相槌選択部16は、選択した相槌に関する相槌情報25(例えば、テキストデータ)を相槌波形生成部18に出力する。また、相槌選択部16は、選択した相槌の相関係数に関する情報26を、韻律調整パラメータ生成部17に出力する。相槌選択部16は、相関係数に関する情報を相槌データベース15から取得することができる。

【0044】
韻律調整パラメータ生成部17は、相槌選択部16で選択された相槌の韻律的特徴が、ユーザ発話の韻律的特徴と合うように相槌の韻律を調整するパラメータを生成する(ステップS5)。このとき、韻律調整パラメータ生成部17は、韻律的特徴抽出部12から供給された特徴量24と、相槌選択部16から供給された相関係数に関する情報26とを用いて、韻律調整パラメータを生成する。生成された韻律調整パラメータ27は、相槌波形生成部18に供給される。

【0045】
具体的には、韻律調整パラメータ生成部17は、上記式を用いて韻律調整パラメータBCipを求める。このとき、韻律調整パラメータ生成部17は、基本周波数成分F0の最大値、平均値、及びパワー成分の最大値、平均値の各々について韻律調整パラメータBCipを求める。

【0046】
相槌波形生成部18は、相槌選択部16で選択された相槌に関する相槌情報25と、韻律調整パラメータ生成部17で生成された韻律調整パラメータ27とを用いて、相槌の音声波形を生成する(ステップS6)。ここで、韻律調整パラメータ27は、基本周波数成分F0の最大値に対応した韻律調整パラメータBCip(F0_max)、基本周波数成分F0の平均値に対応した韻律調整パラメータBCip(F0_ave)、パワーの最大値に対応した韻律調整パラメータBCip(P_max)、及びパワーの平均値に対応した韻律調整パラメータBCip(P_ave)の少なくとも1つである。例えば、相槌波形生成部18は、TTS(text to speech)技術を用いて相槌の音声波形を生成することができる。

【0047】
相槌波形生成部18で生成された相槌の音声波形は、相槌出力部19に供給される。相槌出力部19は、供給された音声波形に対応した相槌を出力する(ステップS7)。これにより、ロボット(音声対話システム)32は、相槌の韻律的特徴がユーザ発話の韻律的特徴と合うように韻律が調整された相槌を出力することができる。このとき、相槌出力部19から出力される相槌に応じてロボットが首を振るように構成してもよい。

【0048】
背景技術で説明したように、特許文献1に開示されている音声認識装置では、音声入力部に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカから相槌音を出力させる相槌タイミングを推測している。そして、相槌タイミングであるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定している。

【0049】
しかしながら、特許文献1に開示されている技術では、相槌を打つタイミングについてのみ焦点が置かれており、実際に打たれている相槌は同一の音声となっている。傾聴においては、ユーザが話しやすいように相槌を打つことが重要であるが、相槌の音声が同一である場合は、ユーザに機械的な印象を与えてしまい、ユーザは話を聞いてもらっているという意識を持つことができない。このため、ユーザの発話が促進されないという問題があった。

【0050】
そこで本実施の形態にかかる音声対話方法および音声対話システムでは、ユーザ発話の音声波形から韻律的特徴を抽出し、相槌を生成する際に、相槌の音声波形の韻律的特徴がユーザ発話の音声波形の韻律的特徴と合うように相槌の韻律(音声波形)を調整している。このように相槌の韻律を調整することで、ユーザに機械的な印象を与えることを抑制することができ、ユーザは話を聞いてもらっているという意識を持つことができ、ユーザの発話を促すことができる。よって、本実施の形態にかかる発明により、発話を促進させる相槌を生成することが可能な音声対話方法、及び音声対話システムを提供することができる。

【0051】
つまり、本実施の形態にかかる発明では、図3に示すように、ユーザ31の発話の音声波形33から韻律的特徴Siを抽出し、この抽出した韻律的特徴Siを上記で示した式に代入して、相槌の韻律的特徴を予測している(つまり、BCipを求めている)。よって、相槌を生成する際に、相槌の音声波形34の韻律的特徴BCipがユーザ31の発話の音声波形33の韻律的特徴と合うように相槌の韻律(音声波形34)を調整することができる。

【0052】
ここで、上記式におけるE(BC)は、相槌の韻律的特徴(F0、パワー)の平均値であり、上記式では、このE(BC)の値をベースラインとし、このE(BC)に、ユーザ発話の韻律的特徴Siに応じた値を加算することで、相槌の韻律的特徴(韻律調整パラメータ)BCipを求めている。

【0053】
以上、本発明を上記実施形態に即して説明したが、本発明は上記実施の形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。
【符号の説明】
【0054】
1 音声対話システム
11 発話入力部
12 韻律的特徴抽出部
13 相槌生成タイミング決定部
14 相槌生成部
15 相槌データベース
16 相槌選択部
17 韻律調整パラメータ生成部
18 相槌波形生成部
19 相槌出力部
21 抽出した韻律的特徴
22 相槌生成タイミング情報
23 相槌選択信号
24 特徴量
25 相槌情報
26 相関係数に関する情報
27 韻律調整パラメータ
31 ユーザ
32 ロボット
33 ユーザ発話の音声波形
34 相槌の音声波形
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4