TOP > 国内特許検索 > 音声対話装置、音声対話方法及びロボット装置 > 明細書

明細書 :音声対話装置、音声対話方法及びロボット装置

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第5051882号 (P5051882)
公開番号 特開2009-003040 (P2009-003040A)
登録日 平成24年8月3日(2012.8.3)
発行日 平成24年10月17日(2012.10.17)
公開日 平成21年1月8日(2009.1.8)
発明の名称または考案の名称 音声対話装置、音声対話方法及びロボット装置
国際特許分類 G10L  15/28        (2006.01)
G10L  15/00        (2006.01)
G10L  15/22        (2006.01)
G10L  15/10        (2006.01)
G10L  13/00        (2006.01)
FI G10L 15/28 230Z
G10L 15/00 200H
G10L 15/22 300Z
G10L 15/10 500Z
G10L 13/00 100M
請求項の数または発明の数 10
全頁数 23
出願番号 特願2007-161998 (P2007-161998)
出願日 平成19年6月20日(2007.6.20)
新規性喪失の例外の表示 特許法第30条第1項適用 2007年1月27日 早稲田大学 白井克彦研究室、山崎芳男研究室、誉田雅彰研究室、匂坂芳典研究室、小林哲則研究室、菊池英明研究室発行の「2006年(平成18)年度 修士論文・卒業論文発表会資料」に発表
審査請求日 平成22年6月1日(2010.6.1)
特許権者または実用新案権者 【識別番号】899000068
【氏名又は名称】学校法人早稲田大学
発明者または考案者 【氏名】小林 哲則
【氏名】藤江 真也
【氏名】渡辺 大地
個別代理人の代理人 【識別番号】100080089、【弁理士】、【氏名又は名称】牛木 護
【識別番号】100137800、【弁理士】、【氏名又は名称】吉田 正義
【識別番号】100148253、【弁理士】、【氏名又は名称】今枝 弘充
【識別番号】100148079、【弁理士】、【氏名又は名称】梅村 裕明
【識別番号】100119312、【弁理士】、【氏名又は名称】清水 栄松
審査官 【審査官】山下 剛史
参考文献・文献 特開2005-196134(JP,A)
特開平3-248268(JP,A)
特開平8-211986(JP,A)
特開2003-202895(JP,A)
岡登洋平他,”韻律情報を用いた相槌の挿入”,情報処理学会論文誌,Vol.40,No.2(1999-02),pp.469-478
調査した分野 G10L 13/00,15/00-15/28
特許請求の範囲 【請求項1】
入力された音声信号を基に計算した話者の音声特徴量に基づいて、前記話者との対話中に相槌手段に相槌させる相槌タイミングを推測する推測手段と、
前記話者との対話中に前記相槌手段に相槌させる前記相槌タイミングがあるとの推測結果が前記推測手段により得られると、前記相槌タイミング直前の前記音声信号を基に前記相槌手段に相槌させるか否かを最終的に判定する相槌判定手段と
を備え
前記音声特徴量は、前記話者の韻律的特徴を示した韻律情報であり、
前記相槌判定手段は、前記相槌タイミングの直前で前記話者が発話しているか否かを前記音声信号に基づき判定し、前記相槌タイミングの直前で前記話者が発話していないと判断したときにのみ前記相槌手段に相槌させる
ことを特徴とする音声対話装置。
【請求項2】
前記韻律情報は、前記音声信号の基本周波数とパワーとである
ことを特徴とする請求項1記載の音声対話装置。
【請求項3】
前記相槌判定手段は、前記相槌タイミングの直前の前記音声信号から得られる音声らしさを表す評価値が所定の閾値以下のときに、前記話者が発話していないと判断する
ことを特徴とする請求項又は記載の音声対話装置。
【請求項4】
前記相槌手段は、前記相槌判定手段からの相槌信号により、前記相槌として所定の相槌音を出力する電気音響変換手段である
ことを特徴とする請求項1~のうちいずれか1項記載の音声対話装置。
【請求項5】
入力された音声信号を基に計算した話者の音声特徴量に基づいて、前記話者との対話中に相槌手段に相槌させる相槌タイミングを推測する推測ステップと、
前記話者との対話中に前記相槌手段に相槌させる前記相槌タイミングがあるとの推測結果が得られると、前記相槌タイミング直前の前記音声信号を基に前記相槌手段に相槌させるか否かを最終的に判定する相槌判定ステップと
を備え
前記音声特徴量は、前記話者の韻律的特徴を示した韻律情報であり、
前記相槌判定ステップは、前記相槌タイミングの直前で前記話者が発話しているか否かを前記音声信号に基づき判定し、前記相槌タイミングの直前で前記話者が発話していないと判断したときにのみ前記相槌手段に相槌させる
ことを特徴とする音声対話方法。
【請求項6】
前記韻律情報は、前記音声信号の基本周波数とパワーとである
ことを特徴とする請求項5記載の音声対話方法。
【請求項7】
前記相槌判定ステップは、前記相槌タイミングの直前の前記音声信号から得られる音声らしさを表す評価値が所定の閾値以下のときに、前記話者が発話していないと判断する
ことを特徴とする請求項又は記載の音声対話方法。
【請求項8】
前記相槌手段は、前記相槌判定手段からの相槌信号により、前記相槌として所定の相槌音を出力する電気音響変換手段である
ことを特徴とする請求項のうちいずれか1項記載の音声対話方法。
【請求項9】
前記請求項1~に記載の音声対話装置を備えた
ことを特徴とするロボット装置。
【請求項10】
前記相槌手段は可動部であって、
前記可動部は、前記相槌タイミングに相槌させるとの判定結果を前記相槌判定手段から得ると、前記相槌タイミングに相槌動作を行う
ことを特徴とする請求項記載のロボット装置。
発明の詳細な説明 【技術分野】
【0001】
本発明は、音声対話装置、音声対話方法及びロボット装置に関し、例えば話者との対話中に所定のタイミングで相槌音を出力する音声対話装置に適用して好適なものである。
【背景技術】
【0002】
従来、話者との対話において、所定のタイミングで相槌音を出力することにより、話者の発話を認識していることを通知し、話者との間で円滑な対話を行う音声対話装置が考えられている。
【0003】
実際上、このような音声対話装置は、例えばマイクロホン等の音声入力部に入力された音声信号に基づいて話者が現在発話中であるか否かを認識する認識手段を備え、当該認識手段において音声信号が所定の無音時間入力されていないと認識すると、話者との対話の区切り目であると判断し、スピーカ等の出力手段から相槌音を出力し得るようになされている(例えば、非特許文献1参照)。
【0004】
また、他の音声対話装置としては、音声入力部に入力された音声信号に基づいて話者の発話の高さを示す基本周波数を算出すると共に、当該音声信号における音声波形のパワーを算出した後、これら基本周波数及びパワーを関係付けた音声特徴量を算出し、この音声特徴量に基づいて相槌音を出力するタイミングを推測して相槌音を出力する音声対話装置が考えられている(例えば、非特許文献2参照)。

【非特許文献1】竹内真士、北岡教英、中川聖一「韻律・表層的言語情報を発話タイミング制御に用いた雑談対話システム」情報処理学会研究報告、SLP-50、no.14、pp.87-92、2004年2月
【非特許文献2】藤江真也、福島健太、小林哲則、"言語/非言語情報を用いた相槌機能の実現," 日本音響学会春季研究発表会、pp.655-656、2005年3月
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、前者の音声対話装置では、短時間ではあるものの、最後に入力された音声信号から時間を計時してゆき、所定の無音時間が経過したときに初めて相槌音を出力するタイミングであると判定しているため、明らかに無音区間であることが判別できる無音時間の分だけ相槌音を出力するタイミングが必ず遅延し、対話内容によっては不自然な相槌となる虞があるという問題があった。
【0006】
また、後者の音声対話装置では、上述した無音時間を設ける必要がないことから、相槌の遅延を最小限に抑えることができるが、話者が未だ発話を継続している場合でも、当該発話にかかわらず推測したタイミングで相槌音が出力される虞があり、この場合、相槌音が話者の発話を遮ることになり、円滑な対話を損なうという問題があった。
【0007】
本発明は以上の点を考慮してなされたもので、自然で円滑な対話を実現できる音声認識装置、音声認識方法及びロボット装置を提案することを目的とする。
【課題を解決するための手段】
【0008】
かかる課題を解決するため本発明の音声対話装置は、入力された音声信号を基に計算した話者の音声特徴量に基づいて、前記話者との対話中に相槌手段に相槌させる相槌タイミングを推測する推測手段と、前記話者との対話中に前記相槌手段に相槌させる前記相槌タイミングがあるとの推測結果が前記推測手段により得られると、前記相槌タイミング直前の前記音声信号を基に前記相槌手段に相槌させるか否かを最終的に判定する相槌判定手段とを備えることを特徴とするものである。

【0009】
また、本発明の音声対話装置は、前記相槌判定手段は、前記相槌タイミングの直前で前記話者が発話しているか否かを前記音声信号に基づき判定し、前記相槌タイミングの直前で前記話者が発話していないと判断したときにのみ前記相槌手段に相槌させることを特徴とするものである。

【0010】
また、本発明の音声対話装置は、前記音声特徴量は、前記話者の韻律的特徴を示した韻律情報であることを特徴とするものである。

【0011】
また、本発明の音声対話装置は、前記相槌判定手段は、前記相槌タイミングの直前の前記音声信号から得られる音声らしさを表す評価値が所定の閾値以下のときに、前記話者が発話していないと判断することを特徴とするものである。

【0012】
また、本発明の音声対話装置は、前記相槌手段は、前記相槌判定手段からの相槌信号により、前記相槌として所定の相槌音を出力する電気音響変換手段であることを特徴とするものである。

【0013】
また、本発明の音声対話方法は、入力された音声信号を基に計算した話者の音声特徴量に基づいて、前記話者との対話中に相槌手段に相槌させる相槌タイミングを推測する推測ステップと、
前記話者との対話中に前記相槌手段に相槌させる前記相槌タイミングがあるとの推測結果が得られると、前記相槌タイミング直前の前記音声信号を基に前記相槌手段に相槌させるか否かを最終的に判定する相槌判定ステップとを備えることを特徴とするものである。

【0014】
また、本発明の音声対話方法は、前記相槌判定ステップは、前記相槌タイミングの直前で前記話者が発話しているか否かを前記音声信号に基づき判定し、前記相槌タイミングの直前で前記話者が発話していないと判断したときにのみ前記相槌手段に相槌させることを特徴とするものである。

【0015】
また、本発明の音声対話方法は、前記音声特徴量は、前記話者の韻律的特徴を示した韻律情報であることを特徴とするものである。

【0016】
また、本発明の音声対話方法は、前記相槌判定ステップは、前記相槌タイミングの直前の前記音声信号から得られる音声らしさを表す評価値が所定の閾値以下のときに、前記話者が発話していないと判断することを特徴とするものである。

【0017】
また、本発明の音声対話方法は、前記相槌手段は、前記相槌判定手段からの相槌信号により、前記相槌として所定の相槌音を出力する電気音響変換手段であることを特徴とするものである。

【0018】
また、本発明のロボット装置は、前記請求項1~5に記載の音声対話装置を備えたことを特徴とするものである。

【0019】
また、本発明のロボット装置は、前記相槌手段は可動部であって、前記可動部は、前記相槌タイミングに相槌させるとの判定結果を前記相槌判定手段から得ると、前記相槌タイミングに相槌動作を行うことを特徴とするものである。

【発明の効果】
【0020】
本発明の音声対話装置及び音声対話方法によれば、一般の対話者が相槌をする目安としている音声特徴量を基に相槌タイミングを推測することで、対話者が相槌をするであろうタイミングを相槌タイミングとして推測でき、かつ2段階の判定により仮に1度目の相槌タイミングが誤検出であっても、当該相槌タイミングを棄却することにより、誤って推測した不自然な相槌を回避でき、かくして自然で円滑な対話を実現できる。また、2度目の判定は相槌タイミングの直前の一瞬の音声信号だけなので、従来のポーズ検出手法のように無音区間を判定するために必要な間が生じることを確実に回避でき、かくして自然で円滑な対話を実現できる。

【0021】
本発明の音声対話装置及び音声対話方法によれば、相槌タイミングが推測された場合であっても、当該相槌タイミングの時点で話者が発話しているときには相槌を行わせないことから、話者の発話が相槌で遮られずにすむので、話者との間で円滑な対話を実現できる。

【0022】
本発明の音声対話装置及び音声対話方法によれば、一般の対話者が相槌をする目安としている韻律情報を基に相槌タイミングを推測することで、対話者が相槌をするであろう相槌タイミングを推測できる。

【0023】
本発明の音声対話装置及び音声対話方法によれば、閾値を基に、話者の発話と、発話以外の周辺音とを区別し、これにより話者が発話していない無声区間であることを判断でき、かくして相槌に適した話者の無声区間で相槌させることができる。

【0024】
本発明の音声対話装置及び音声対話方法によれば、自動音声案内等のような話者との間で音声でやり取りを行う場合に自然で円滑な対話を実現できる。

【0025】
本発明のロボット装置によれば、自然で円滑な対話を行えるロボット装置を提供することができる。

【0026】
本発明のロボット装置によれば、2段階の判定結果に基づいて所定の相槌タイミングで可動部を可動させることで相槌を行い、自然で円滑な対話を行えるロボット装置を提供することができる。

【発明を実施するための最良の形態】
【0027】
以下図面に基づいて本発明の実施の形態を詳述する。
【0028】
(1)第1の実施の形態
図1において、1は本発明による音声対話装置を示し、この音声対話装置1は、話者の発音を集音し、音声信号として得る音声入力部2と、音声入力部2で得られた音声信号に基づいて話者の音声の韻律的特徴を示す情報(以下、これを韻律情報と呼ぶ)を計算するFO抽出・パワー計算部3と、韻律情報に基づいて少ない情報量で音声の特徴を表す情報(以下、これを音声特徴量と呼ぶ)を算出し、この音声特徴量を用いて相槌音を出力するタイミング(以下、これを相槌タイミングと呼ぶ)を推測する推測部4と、当該推測部4で推測した相槌タイミングで相槌音を出力するか否かを相槌判定部5で最終的に判定し、その判定結果により所定の相槌タイミングで相槌音を相槌手段としてのスピーカ6から出力する出力部7とから構成されている。
【0029】
すなわち、この音声対話装置1は、話者と対話を行う対話モード時、音声入力部2から話者の音声信号が入力さると、既に記憶部10に記憶されている複数の学習時音声特徴量を用いて相槌音の相槌タイミングを決定し、この相槌タイミングで相槌音を出力することにより話者が発話し易くなると思われると判定したときにのみ、決定した相槌タイミングで相槌音を出力し、これにより話者と円滑な対話が行え得るようになされている。
【0030】
この場合、音声対話装置1は、先ず始めに複数の話者の音声信号に基づいて予め学習時音声特徴量を生成して記憶部10に記憶しておくことが必要であり、この学習用音声特徴量を生成するために実行する各種処理を学習用プログラムに従ってソフトウェア的に実現する。
【0031】
具体的には、音声対話装置1は、学習用プログラムに従って学習用音声特徴量を生成する学習モード時、任意の話題について発話させる話者と、この話者の発話を聴いて相槌を打っても良いと思われるタイミングで操作キー(図示せず)を押下させて相槌音の相槌タイミングを決定する対話者とがペアとなり、話者の学習用音声特徴量と、対話者の操作キーを押下したタイミング情報とを取得し得るようになされている。
【0032】
すなわち、音声対話装置1は、話者が発話すると、音声入力部2に入力された音声信号をFO抽出・パワー計算部3へ送出し、FO抽出・パワー計算部3において音声信号に基づき韻律情報として基本周波数(FO)とパワーとを算出して、これら基本周波数及びパワーをFO代表点計算部11に送出する。
【0033】
ここで声の強さを示すパワーPwr(t)は、次式
【0034】
【数1】
JP0005051882B2_000002t.gif
によって求められる。なお、窓関数としては例えばハミング窓を用い、w(x)=0.54-0.46cos2πxで表され、W=0.63とする。
【0035】
また、FO抽出・パワー計算部3は、基本周波数抽出処理プログラムに従って基本周波数抽出処理を実行することにより、音声信号から声の高さを示す基本周波数を抽出する。
【0036】
すなわち、FO抽出・パワー計算部3は、図2に示すように、基本周波数処理手順RT1の開始ステップから入り、続くステップSP1へ移る。
【0037】
ステップSP1においてFO抽出・パワー計算部3は、例えば標本化周波数16[KHz]、量子ビット数16[bit]でA/D変換して音声信号を得、この連続的な音声波形を有する音声信号を所定長さのフレームに順次切り出してゆき、次のステップSP2へ移る。
【0038】
なお、この実施の形態の場合、FO抽出・パワー計算部3は、例えばフレームサイズ1024ポイント、フレームシフト幅80ポイント(5[msec])毎に音声信号を切り出すようになされている。
【0039】
ステップSP2においてFO抽出・パワー計算部3は、各フレームに対して例えばハング窓等の窓関数をかける窓がけ処理を行うことにより、音声信号における音声波形の不連続性を軽減した窓関数処理データを得、次のステップSP3へ移る。

【0040】
ステップSP3においてFO抽出・パワー計算部3は、窓関数処理データに対して高速フーリエ変換(FFT)を施すことにより音声信号からスペクトルを計算し、次のステップSP4へ移る。
【0041】
ステップSP4においてFO抽出・パワー計算部3は、ステップSP3のスペクトルをフィルタバンク出力と解釈して瞬時周波数を計算した後、この瞬時周波数軸上にパワースペクトルを写像し、次のステップSP5へ移る。
【0042】
ステップSP5においてFO抽出・パワー計算部3は、瞬時周波数軸上のパワースペクトルに、予め計算した各基本周波数(50[Hz]~300[Hz]程度)に対応するコムフィルタをかけてコムフィルタ出力データを得、次のステップSP6へ移る。
【0043】
ここで各コムフィルタは、対応する基本周波数と、当該基本周波数に関する高調波成分のみを出力するようになされている。これにより、対応する基本周波数を持つパワースペクトルの出力は、他に比べて大きくなる。
【0044】
ステップSP6においてFO抽出・パワー計算部3は、コムフィルタ出力データの中で最も大きい値を選択し、コムフィルタに対応する基本周波数を、対象としたフレームの基本周波数抽出結果として得、次にステップSP7へ移って基本周波数処理手順を終了する。
【0045】
FO代表点計算部11は、このようにして算出した基本周波数及びパワーを受け取ると、連続するN個のフレームの基本周波数抽出結果を最小二乗法を用いて直線に近似し、このときの近似した直線と基本周波数抽出結果との平均誤差を算出する。
【0046】
FO代表点計算部11は、このようにして求めた平均誤差が、当該平均誤差について予め定められた所定の閾値Ne以下であるか否かを判断し、当該平均誤差が閾値Ne以下であるとき、対象としているNフレームの端点の近似値を代表点として決定する。
【0047】
かくして、FO代表点計算部11は、図3に示すように、基本周波数(FO)の抽出結果とある程度近似できたフレームの端点を代表点として得、このようにして順次得られた代表点、基本周波数及びパワーを音声特徴量抽出部12に送出する。
【0048】
音声特徴量抽出部12は、FO代表点計算部11から代表点を受け取る毎に、この代表点を基準代表点とし、この判断基準となる基準代表点から過去R個の代表点と、過去R個の代表点での各パワー点とを基に学習時音声特徴量を算出する。
【0049】
この実施の形態の場合、図4に示すように、基準代表点rpから例えば過去4個(すなわちR=4)の代表点r1~r4を選択するようになされており、これら過去4個の各代表点r1~r4と基準代表点rpとの各周波数差分値f1~f4と、過去4個の代表点r1~r4の各パワー点p1~p4と基準代表点rpのパワー点ppとの各パワー差分値pd1~pd4と、隣接する代表点間の時間t1~t3と、基準代表点rp及び基準代表点rpと隣接する過去の代表点r1間の時間t4とを抽出し、これら12次元をまとめて学習時音声特徴量として得、これをタイミング判定部13に順次送出してゆくようになされている。
【0050】
タイミング判定部13は、話者の発話に対して順次学習時音声特徴量を算出すると同時に、操作キーからのタイミング情報を待ち受けている。
【0051】
タイミング判定部13は、操作キーからタイミング情報を受け取ると、このタイミング情報を得た直前の学習時音声特徴量における基準代表点rpからタイミング情報を得た時点までの経過時間を特定し、この経過時間を学習時音声特徴量にタグ付けして、相槌音がどのタイミングで出力されたかを示すようになされている。
【0052】
かくしてタイミング判定部13は、記憶部10に学習時音声特徴量を送出する際に、タイミング情報が得られると、タイミング情報を得るたびに学習時音声特徴量にタグ付けして記憶部10に送出し得るようになされている。かくして記憶部10は、タイミング判定部13から順次受け取る学習時音声特徴量を記憶してゆくようになされている。
【0053】
このようにして音声対話装置1では、学習モード時、複数の被験者を話者と対話者とに分けて2人1組で上述した処理を実行してゆき、複数種類の学習時音声特徴量を記憶部10に記憶し得るようになされている。
【0054】
その後、複数種類の学習時音声特徴量を記憶させた音声対話装置1は、学習モードから対話モードに移行し、このとき話者が発音し始めると、学習時音声特徴量によって得られた相槌を打つ傾向から、話者が発話し易くなると思われる相槌タイミングを推測し、さらに2段階目の判定を行い、相槌タイミングで相槌音を実際に出力したときに話者と円滑な対話が行えると判定したときにのみ、自動的に相槌音を出力し得るようになされている。
【0055】
すなわち、音声対話装置1は、対話モードに移行すると、図5に示すように相槌2段階判定プログラムに従って相槌2段階判定処理手順RT2の開始ステップから入り、続くステップSP10へ移る。
【0056】
ステップSP10において音声対話装置1は、話者が発話すると、音声入力部2で得られた音声信号をFO抽出・パワー計算部3(図1)へ入力し、次のステップSP11へ移る。
【0057】
ステップSP11において音声対話装置1は、音声信号に基づいて基本周波数を抽出すると共に、パワーPwr(t)を計算した後、これら基本周波数及びパワーPwr(t)をFO代表点計算データとしてFO代表点計算部11(図1)に送出し、次のステップSP12へ移る。因みに、パワーPwr(t)及び基本周波数の計算については、上述した説明と重複するためその説明は省略する。
【0058】
ステップSP12において音声対話装置1は、FO代表点計算部11により、対象とする連続したN個のフレーム分の基本周波数抽出結果を最小二乗法を用いて直線に近似し、このとき近似した直線と基本周波数抽出結果との平均誤差を算出する。
【0059】
次いで、音声対話装置1は、このようにして求めた平均誤差が、当該平均誤差について予め定められた所定の閾値Ne以下であるか否かを判断し、当該平均誤差が閾値Ne以下であるとき、対象としているN個のフレームの端点の近似値を代表点として決定する。
【0060】
音声対象装置は、このようにして得られた代表点、基本周波数及びパワーPwr(t)を音声特徴量抽出部12に送出し、次のステップSP13へ移る。
【0061】
ステップSP13において音声対話装置1は、学習時音声特徴量を生成した処理手順と同様に、対話モード時においても、図4に示すように、先ず最新の代表点を基準代表点rpとし、この基準代表点rpから過去4個の代表点r1~r4を選択するようになされており、これら過去4個の各代表点r1~r4と基準代表点rpとの各周波数差分値f1~f4と、過去4個の代表点r1~r4の各パワー点p1~p4と基準代表点rpのパワー点ppとの各パワー差分値pd1~pd4と、隣接する代表点f1~f4間の時間t1~t3と、基準代表点rp及び基準代表点rpと隣接する過去の代表点r1間の時間t4とを抽出して、これら12次元をまとめて音声特徴量として得、これをタイミング判定部13へ送出し、次のステップSP14へ移る。
【0062】
ステップSP14において音声対話装置1は、1段階判定として、タイミング判定部13により、記憶部10から複数種類の学習時音声特徴量を全て読み出した後、これら複数種類の学習時音声特徴量と音声特徴量とを対比してゆくことにより、学習時音声特徴量におけるタグ付けの有無の傾向から音声特徴量を得た時点で相槌音を出力する相槌タイミングがあるか否かを判断する。
【0063】
具体的に、音声対話装置1は、判断対象となる音声特徴量における周波数差分値f1~f4と、パワー差分値pd1~pd4と、隣接する代表点r1~r4間の時間t1~t3と、基準代表点rp及びこれに隣接する過去の代表点r1間の時間t4との12次元全てが一致する学習時音声特徴量を検索する。
【0064】
そして音声対話装置1は、判断対象となる音声特徴量と一致した学習時音声特徴量全てについて、図6に示すように、判断対象となる音声特長量の基準代表点rpを得た時刻t´の直後Gmin~Gmaxの期間T1に相当する期間(以下、この期間を相槌判断期間と呼ぶ)に、相槌タイミングのタグ付けがされているか否かを順次判断してゆく。
【0065】
この判断の結果、タイミング判定部13は、図7(A)に示すように、判断対象となる音声特徴量と一致した学習時音声特徴量にうち、基準代表点rpを得た時刻tの直後の相槌判断期間T2にタグtgが付された学習時音声特徴量を相槌タイミングモデルとしてモデル化する。
【0066】
一方、タイミング判定部13は、図7(B)に示すように、判断対象となる音声特徴量と一致した学習時音声特徴量のうち、基準代表点rpを得た時刻tの直後の相槌判断期間T2にタグtgが付けられていない学習時音声特徴量をガーベッ(不要なデータ)モデルとしてモデル化する。なお、この実施の形態の場合、相槌タイミングモデル及びガーベッジモデルは混合正規分布で表現し得るようになされている。
【0067】
そして、タイミング判定部13は、現在判断対象となっている音声特徴量について、全ての学習時音声特徴量を基に相槌タイミングモデル(図7(A))及びガーベッジモデル(図7(B))のうち、どちらのモデルの出力尤度(統計的観点から見た尤もらしさの度合い)が上回ったかを判断する。
【0068】
その結果、音声対話装置1は、タイミング判定部13において、例えばガーベッジモデルの出力尤度が上回ると、判断対象となっている音声特徴量が、相槌音を出力するに適しない音声特徴量であると推測し、次のステップSP15へ移る。これにより音声対話装置1は、相槌音を出力することなく、新たな音声特徴量を判断対象とし、新たな判断対象となった音声特徴量について上述した処理を行ってゆく。
【0069】
一方、音声対話装置1は、タイミング判定部13において、例えば相槌タイミングモデルの出力尤度が上回ると、判断対象となっている音声特徴量が、相槌音を出力するに適した相槌タイミングがある音声特徴量であると推測し、次のステップSP16へ移る。
【0070】
ステップSP16において音声対話装置1は、2段階判定として、次式により決められた相槌タイミングBCの直前のパワーが、当該パワーについて予め定められた所定の閾値以下であるか否かを判断する。
【0071】
【数2】
JP0005051882B2_000003t.gif
なお、ここで相槌タイミングBCの直前とは、相槌タイミングBCから0~0.4[s]前であり、後述する検証試験により相槌タイミングBCに近いほど最適な相槌音を出力できることから、相槌タイミングBCとほぼ同時刻であることが好ましい。
【0072】
すなわち、相槌判定部5は、例えば基準代表点rpの時刻t´から相槌タイミングBCまでの間に、音声らしさを表す評価値としてのパワーが存在する場合、当該相槌タイミングBC直前のパワーが所定の閾値以下であるか否かを判断し、これにより相槌音を出力するか否かについて2段階目の判定を行うようになされている。
【0073】
このステップSP16で否定結果が得られると、このことは相槌タイミングBC直前のパワーが所定の閾値より上であること、すなわち未だ話者が発話中であることを表しており、このとき音声対話装置1は次のステップSP15へ移り、当該相槌タイミングBCでの相槌音の出力を中止する。
【0074】
これに対して、ステップSP16で肯定結果が得られると、このことは相槌タイミングBC直前のパワーが存在しないか、或いはパワーが存在していても所定の閾値以下であること、すなわち現在話者が発話しておらず、無声休止期間であり相槌音を出力する最適なタイミングであることを表しており、このとき音声対話装置1は次のステップSP17へ移る。
【0075】
ステップSP17において音声対話装置1は、相槌判定部5により相槌信号を生成して、この相槌信号をスピーカ6に送出することにより、相槌タイミングBCでスピーカ6から所定の相槌音を出力し、次のステップSP15へ移り、上述した処理を終了する。
【0076】
ここで、この実施の形態の場合、相槌タイミングBCで相槌音を出力するか否かのパワーの判断に、所定の閾値を設けるようにしたことにより、話者の発話と、周囲の雑音等の発話以外の周辺音とを区別し、これにより話者が発話していない無声区間であることを判断でき、かくして相槌タイミングのなかでも、最適な話者の無声区間において相槌音を一段と確実に出力できる。
【0077】
以上の構成において、音声対話装置1では、音声入力部2に入力された音声信号から話者の音声特徴量を抽出してゆき、この判断対象となる音声特徴量と同じ学習時音声特徴量を記憶部10から全て読み出してゆく。
【0078】
音声対話装置1では、読み出した学習時音声特徴量に相槌音の相槌タイミングを示すタグが相槌判断期間T2に付されているか否かを判断し、当該相槌判断期間T2にタグが付されている学習時音声特徴量を相槌タイミングモデルとし、一方、相槌判断期間T2にタグが付されていない学習時音声特徴量をガーベッジモデルとしてモデル化して、相槌タイミングモデル及びガーベッジモデルの出力尤度を比較する。
【0079】
その結果、音声対話装置1では、判断対象となる音声特徴量に対して相槌タイミングモデルの出力尤度がガーベッジモデルの出力尤度を上回ると、判断対象となる音声特徴量に相槌音を出力する相槌タイミングがあるだろうと推測し、1段階判定による相槌タイミング判定を行うことができる。
【0080】
これにより、音声対話装置1では、一般的の対話者が相槌を打つべきか否かを判断する際に重要な情報となる音声特徴量に基づいて相槌音を出力するか否かを判断することができるので、対話者が相槌をするであろうタイミングを相槌タイミングとして推測でき、かくして話者との対話中に自然なタイミングで相槌音を出力できる。
【0081】
かかる構成に加えて音声対話装置1では、1段階判定により相槌タイミングBCを決定した後に、さらに2段階判定により相槌タイミングBC直前のパワーを基に最終的に相槌音を出力するか否かを判定するようにしたことにより、1段階判定において相槌タイミングの誤検出があっても、当該相槌タイミングBCを破棄することで、話者が発話している際に相槌音が出力してしまうことを回避できる。
【0082】
従って、音声対話装置1では、話者が発話している際に出力される不自然な相槌音が出力されない分だけ、話者の発話が相槌音で遮られずにすむので、話者の間で円滑な対話を行うことができる。
【0083】
また、音声対話装置1では、韻律情報を音声特徴量として用い、相槌音を出力するのに最適なタイミングを選定した後、さらに相槌タイミングの時点で無音区間のときにのみ相槌音を確実に出力させることができるので、従来に比して一段と自然なタイミングで相槌音を出力させることができる。
【0084】
以上の構成によれば、音声入力部2に入力された音声信号を基に計算した話者の音声特徴量に基づき、話者との対話中にスピーカ6から相槌音を出力させる相槌タイミングを推測し、話者との対話中に前記スピーカ6から相槌音を出力させる相槌タイミングがあるとの推測結果が得られると、相槌タイミング直前のパワーを基に相槌音を出力させるか否かを判定するようにした。
【0085】
従って、音声対話装置1では、対話者が相槌をする目安としている音声特徴量を基に相槌タイミングを推測することで、対話者が相槌をするであろうタイミングを相槌タイミングとして推測でき、かつ2段階の判定により仮に1度目で誤検出された相槌タイミングがあっても、当該相槌タイミングを棄却することにより、誤って推測した不自然な相槌音の出力を回避でき、かくして自然で円滑な対話を実現できる。
また、音声対話装置1では、パワーを見るのは相槌音を出力する相槌タイミング直前の一瞬だけなので、従来のポーズ検出手法のように無音区間を判断するために必要な間が生じることを確実に回避でき、かくして自然で円滑な対話を実現できる。
【実施例】
【0086】
(1-1)相槌タイミングデータの収集
ここでは一般的な人達の相槌を行うタイミングについてデータを収集した。先ず始めに、昼食を話題とする人同士(1対1)の対面対話を収録した。各対話の参加者は6名で、そのうち任意に選んだ2名を1組とした。そして、各話者の音声は、パワーとゼロクロスとを元に発話単位に切り出され、計861発話、約50分のデータとした。
【0087】
そして、上述した音声対話装置1を用いずに、単なる計算機を用いてこれら計861発話、約50分のデータに対して、7名の被験者(対話の参加者2名、不参加5名)が、相槌を打ってもよいタイミングのタグ付けを行った。
【0088】
具体的には、計算機から流れる発話音声を聴取すると同時に、自分が聞き手であると想定した時に相槌を打てると思うタイミングに操作キーを押すように指示した。なお、各話者の音声をそのまま再生したため、発話データは言語情報も含むが、タグ付けの際はそれを無視するよう指示した。また、発話データの再生順序をランダムにしたため、対話の流れの影響が出ないようにした。そして、タグ付けの結果、計5872個のタイミングデータを得た。
【0089】
(1-2)分析方法
次に、上述したようにして得られたタイミングデータが被験者間でどの程度一致するかを調べた。図8に示すように、ある目的の被験者が相槌を打ったタイミングtg1の前後0.3[s]に注目し、その目的の被験者が相槌を打ったタイミングtg1の総数(Total)をTとし、そのうち注目する範囲ER1に他被験者が相槌を打っていないタイミングitg(Insertion)の数をIとした。
【0090】
また、他被験者が相槌を打ったタイミングtg2のうち、注目した範囲ER1に存在するタイミングtg2a(Correct)の数をCとし、注目した範囲外のタイミングtg2b(Deletion)の数をDとした。この時の適合率PR(Precision)及び再現率RE(Recall)を次式で定義した。
【0091】
【数3】
JP0005051882B2_000004t.gif
収集したデータの評価結果を表1に示す。
【0092】
【表1】
JP0005051882B2_000005t.gif
表1に示した評価結果では、適合率PRが平均的に高いことから、ある被験者が相槌を打てると判断したタイミングに注目したとき、他被験者のうち少なくとも1人は同様に相槌を打てると判断しているケースが多いことが分かる。一方で、再現率REが0.5に満たないことから、被験者の間でも一致率がそれほど高くないことが分かる。
【0093】
(1-3)韻律情報のみを用いた相槌タイミング検出実験
上述の実験により被験者から収集したタイミングデータを用いて、本発明の音声対話装置1における1段階判定しか行わない手法(以下、1段階判定手法と呼ぶ)と、従来のポーズ認識を用いた手法(以下、従来手法と呼ぶ)による相槌タイミング検出実験を行い、比較検討した。なお、従来手法による相槌タイミング検出は、予備実験で最も評価値の高かった0.45[s]ポーズが続いたら相槌音を出力するという音声対話装置を用いた。実際の性能の評価は次式のF値
【0094】
【数4】
JP0005051882B2_000006t.gif
で行った。今回試行したパラメータの中で最も性能が良かった組合せは、N(フレーム数)=15、Te(代表点を求めるときの平均誤差の閾値)=10.0、Gmin=0.4、Gmax=1.0となった。基準代表点から過去R個の代表点を用いて音声特徴量を算出するとし、このR以外のパラメータを固定し、Rを変化させたときの評価値の変化と、ポーズ検出を用いた場合の評価値とを図9に示す。
【0095】
注目する代表点の数を増やす、すなわち考慮する時間を長くしても、性能は上がらなかった。このことから、相槌を打つべきタイミングを予告するような情報は、連続して発話中に表出しているのでは無く、ある一定区間に集中して表出していると推測できる。また、ポーズ認識を用いた従来手法の音声対話装置の実験結果と、最も評価値の高いR=4の実験結果とを比較すると、適合率PRでは劣っているが、再現率RE、F値で優れていることが分かる。
【0096】
人同士の結果と比較した場合も、同様に適合率PRでは劣っているが、再現率RE、F値で優れている。この結果から、1段階判定手法は人が相槌を打てると判断したタイミングをカバーするという点では優れているが、人やポーズ認識による相槌タイミング検出と比べ、本来相槌を打ってはいけないタイミングを多く検出するということが分かる。
【0097】
また、いくら適合率PRに優れていても、自然なタイミングで相槌音を出力しているとは限らない。そこで、人同士、韻律情報のみを用いた1段階判定手法、従来のポーズ検出手法のそれぞれでタイミングがどの程度ずれているのか調べた。比較対象が相槌を打ったタイミングの内、前後0.3[s]以内に他被験者のタイミングが存在するものを対象として、最も近い他被験者のタイミングとの差を集計した。その結果を図10に示す。
【0098】
図10に示した結果から、韻律情報のみを用いた1段階判定手法は、人同士、ポーズ検出手法には劣っているが、70%以上が人が相槌を打つ場合の前後0.1[s]以内に相槌音を出力していることが分かる。
【0099】
(1-3)本発明のパワーを用いた不適切な相槌タイミングの棄却
図6に示したように、相槌タイミング検出の際、実際に相槌音を出力する相槌タイミングの0.7[s]前までの情報のみを用いて相槌タイミング検出を行った。上述した韻律情報を用いて1度相槌タイミングの検出を行い、その後実際に相槌音を出力するまでの0.7[s]間の情報を用いて2度目の判定を行い、相槌タイミング検出の精度について検証した。
【0100】
すなわち、再現率REが極めて高いことから、相槌を打ってもよいタイミングを見逃している場合は少ない。そこで、1度目で相槌音を出力すると判定されたタイミングを対象に2度目の判定を行う。この2度目の判定には、相槌音を出力する相槌タイミングの直前のパワーを用いて行う。この値が閾値以上なら、まだ発話の最中だと考え、相槌を打つことを止めるようにした。
【0101】
上述するように2度の判定を行う本発明の2段階判定手法を用いて、同様の相槌タイミング検出実験を行ったが、2度目の判定タイミング(すなわち、相槌タイミングの直前のパワー検出期間)を変えた時の実験結果を図11に示す。この結果から2度目の判定を行うタイミングは、実際に相槌を打つタイミングに近い程効果が高いことが分かった。
【0102】
また、再現率REは減少したが、それ以上に適合率PRが向上していることが分かった。このことから本発明の2段階判定手法では、2段階の判定により1度目で誤検出された相槌タイミングが棄却できたことを確認できた。この本発明の2段階判定手法ならば、パワーを見るのは相槌を打つ直前の一瞬だけなので、従来のポーズ検出手法のように不要な間が生じることを確実に回避できる。さらに適合率PR、再現率RE、F値のいずれについてもポーズ認識を行う従来手法より上回っていた。
【0103】
次に、後述する聴取実験と同様に、本発明の2段階判定による相槌タイミングと、被験者のタイミングとがどの程度ずれているか調べた。この結果を図12に示す。この結果から韻律情報のみを用いた1段階判定と、本発明の2段階判定とを比べたとき、0.2~0.3[s]ずれているタイミングの割合が減少し、0~1[s]ずれているタイミングの割合が増加したことが分かる。このことから、本発明の2段階判定により相槌音を出力するタイミングの精度も僅かに向上していることが分かった。
【0104】
(1-4)聴取実験
次に、実際に人と音声対話装置とが対話したとき、音声対話装置が出力した相槌音をどのように感じるか調べるために聴取実験を行った。
【0105】
聴取実験は次の条件で行った。具体的には3種類の音声対話装置を用いて聴取実験を行い、それぞれについて音声対話装置から流れる相槌音声(「はい」)のタイミングが自然か不自然かを(1)不自然(2)どちらかといえば不自然(3)どちらともいい難い(4)どちらかといえば自然(5)自然の5段階で評価した。
【0106】
相槌タイミング検出に用いる音声対話装置としては、従来のポーズ検出の手法を用いた音声対話装置と、韻律情報のみを用いた1段階判定の手法を用いた音声対話装置と、韻律情報を用いた判定を行った後、パワーを用いて判定を行う2段階判定の手法を用いた本発明の音声対話装置1との3種類を用いた。
【0107】
ここで、実験1としては、フリートークを行い、マイクに向かって被験者が15[s]間自由に喋る試行を、上述した3種類の音声対話装置を用いて各2回行い、1回毎に相槌音声の流れたタイミングについて判定を行ってもらった。
【0108】
また、実験2としては、固定トークを行い、用意した約10[s]の会話文3種類を、次の2通りの読み方で読ませた。第1のパターンAとしては、読点「、」のところで必ず一旦切るようにして読んでもらった。第2のパターンBとしては、読点「、」のところで切らず、一息に読んでもらった。これは第1のパターンAで読む場合には読点「、」で相槌を打ってくれることを期待し、第2のパターンBでは読点「、」で相槌を打たないことを期待して行った。
【0109】
さらに、実験3としては、相槌音声の聞き比べを行ってもらった。用意した約20[s]間の音声に、音声対話装置によって出力された相槌音声を合わせたものを3回聞いてもらった。なお、上述した3つの実験は、それぞれ3種類の音声対話装置をどのような順番で用いるかは人により異なるが、偏りがでないよう配慮した。
【0110】
以上において実験1では、フリートークで話す内容は「電話の応対」「バイト先の対応」「手近な文章を読み上げる」等、人それぞれであった。この結果を図13に示す。ポーズ検出による手法の音声対話装置では、収集した相槌タイミングデータによる実験結果では良好な性能を示していたが、相槌音声を出力するタイミングが遅いという意見が目立ち、評価はあまり良くなかった。一方、1段階判定の手法の音声対話装置では、相槌音声の出力が早いという意見が目立った。
【0111】
これに対して本発明の音声対話装置1では、1度の対話の最中に相槌音声を出力してくれいないときが1、2回あるという意見があったが、全体的には良好な結果となった。
【0112】
次に実験2における固定トークの結果を図14に示す。第2のパターンBになると、どの音声対話装置も評価が悪くなった。特に1段階判定の音声対話装置と、2段階判定の本発明による音声対話装置1は共に顕著に評価が悪くなった。これは相槌タイミングモデルの学習の際、短い発話に対する相槌ばかりを学習したため、長い発話に対して適切なタイミングで相槌を打つことができなかったものである。従って長い発話に対する相槌についても学習しておけば、長い発話に対しても適切なタイミングで相槌音声を出力することができる。
【0113】
次に実験3において相槌音声の聞き比べの結果を図15に示す。聴取実験1と同様に、ポーズ検出による従来の音声対話装置は相槌音声の出力が遅く、1段階判定の音声対話装置による相槌は早いという感想が得られたが、2段階判定の本発明による音声対話装置1による相槌は、1、2回相槌音声を出力してくれない箇所があるが、他と比べて比較的自然な相槌音が出力されたとの感想を得た。
【0114】
このように、本発明のよる音声対話装置1は、従来のポーズ検出による音声対話装置や1段階判定の音声対話装置に比して、全体的に自然な相槌音を出力でき、その結果、話者との間で従来よりも円滑な対話を行わせることができた。
【0115】
(2)他の実施の形態
なお、本発明は、本実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形実施が可能であり、例えば、図1との対応部分に同一符号を付して示す図16のように、端末装置52とサーバ51とが無線通信接続された構成からなる音声対話システム50を構築するようにしても良い。
【0116】
この場合、サーバ51には、FO抽出・パワー計算部3と、FO代表点計算部11と、音声特徴量抽出部12と、タイミング判定部13と、記憶部10とを設けることにより、端末装置52の構成を簡易にすることができる。
【0117】
すなわち、端末装置52は、音声入力部2と、パワー計算部53と、相槌判定部5と、スピーカ6とを備え、音声入力部2から入力された音声信号を図示しない通信手段によりサーバ51へ送信し、当該サーバ51での相槌タイミング結果を無線信号で受信する。
【0118】
これにより端末装置52は、サーバ51から受信した相槌タイミング結果を基に、パワー計算部53で相槌タイミングを認識した音声特徴量において2段階判定を行うためのパワーのみを算出し、相槌判定部5で当該パワーが所定の閾値以下ならスピーカ6から相槌音を出力させることできる。
【0119】
このように端末装置52では、パワー計算部53を設けるだけなので、簡易な構成にできると共に、処理負担を軽減できる。
【0120】
また、上述した実施の形態においては、音声対話装置1は相槌音を出力させるようにした場合について述べたが、本発明はこれに限らず、頭部や腕部等の可動部を供えた人型或いは動物型の各種ロボットに音声対話装置1を搭載し、相槌音に替えて、或いは相槌音と共に、例えば頭部を上下方向に動かすようにしたり、腕部を動かすようにする等この他種々の可動部を動かして相槌動作を行わせるようにしても良い。
【0121】
さらに、上述した実施の形態においては、基本周波数抽出処理を実行することにより、音声信号から声の高さを示す基本周波数(FO)を抽出するようにした場合について述べたが、本発明はこれに限らず、自己相関を用いた手法や、相互相関を用いた手法、SIFTアルゴリズム(Simplified Inverse Filter Algorithm [Markel 1972])、AMDF(Average Magnitude Difference Function)を用いた手法、RAPT(Robust Algorithm for Pitch Tracking [Talkin 1995])等のように時間波形処理によって音声信号から基本周波数(FO)を抽出するようにしたり、或いは、ケプストラムを用いた手法や、ピリオドヒストグラムを用いた手法等のようにスペクトル処理によって音声信号から基本周波数(FO)を抽出するようにしても良い。
【0122】
さらに、上述した実施の形態においては、2段階判定で用いる音声らしさを表す評価値として、音声波形が有するパワーを用い、当該パワーにより相槌タイミングBCの直前で話者が発話しているか否かを判定するようにした場合について述べたが、本発明はこれに限らず、例えば音声レベルとしてゼロクロス(零交差)や、スペクトルエントロピ、S/N比等を用いて相槌タイミングBCの直前で話者が発話しているか否かを判定するようにしても良い。
【0123】
なお、ゼロクロス(零交差)を用いた場合には、音声波形が0を交差する回数が多ければ(正負の切り替わりが多ければ)音声信号が入力されている可能性が高いと判定でき、スペクトルエントロピを用いた場合には、スペクトルのエントロピーが低ければ、話者が発話している可能性が高いと判定でき、S/N比を用いる場合には、S/N比(雑音レベルに対する音声レベルの比)が大きければ、話者が発話している可能性が高いと判定できる。また、ゼロクロス(零交差)や、スペクトルエントロピ、S/N比についても適宜所定の閾値を設け、当該閾値以下のときに無声区間であるとして判断するようにしても良い。
【0124】
さらに、上述した実施の形態においては、音声特徴量として12次元を用いたが、本発明はこれに限らず、12次元のうちいずれかを用いて10次元や11次元等の12次元以外の音声特徴量を用いたり、その他種々の韻律的特徴を示す音声特徴量を用いたりしても良い。
【0125】
さらに、上述した実施の形態においては、電気音響変換手段として、スピーカ6を適用するようにした場合について述べたが、本発明はこれに限らず、例えば端末の筐体に直接設けたスピーカや、イヤホン又はヘッドホンに設けたスピーカ、相槌音を生体内部に伝搬させて通知する骨伝導手段等この他種々の電気音響変換手段を適用するようにしても良い。
【図面の簡単な説明】
【0126】
【図1】本発明による音声対話装置の回路構成を示すブロック図である。
【図2】基本周波数抽出処理手順を示すフローチャットである。
【図3】基本周波数の代表点の計算例を示す概略図である。
【図4】R=4の場合の音声特徴量の計算例を示す概略図である。
【図5】相槌2段階判定処理手順を示すフローチャートである。
【図6】相槌タイミングを示す概略図である。
【図7】学習時音声特徴量の分類を示す概略図である。
【図8】相槌タイミングの正解・誤りのカウント方法の説明に供する概略図である。
【図9】1段階判定手法と、ポーズ検出の従来手法とを用いた相槌タイミング検出実験の結果を示すグラフである。
【図10】相槌タイミングの被験者とのズレを示したグラフである。
【図11】2段階判定を用いた相槌タイミングの検出実験結果と、2段階判定の判定タイミングによる評価値の変化とを示すグラフである。概略図である。
【図12】2段階判定による相槌タイミングと被験者の相槌タイミングとのずれを示すグラフである。
【図13】聴取実験1におけるフリートークに対する音声対話装置が出力した相槌音声の感想をまとめたグラフである。
【図14】聴取実験2における固定トークに対する音声対話装置が出力した相槌音声の感想をまとめたグラフである。
【図15】聴取実験3における流れる音声に対し音声対話装置が出力した相槌音声の感想をまとめたグラフである。
【図16】本発明による音声対話システムの全体構成を示すブロック図である。
【符号の説明】
【0127】
1 音声対話装置
2 音声入力部
4 推測部(推測手段)
5 相槌判定部(相槌判定手段)
6 スピーカ(相槌手段、電気音響変換手段)
図面
【図1】
0
【図2】
1
【図5】
2
【図6】
3
【図7】
4
【図16】
5
【図3】
6
【図4】
7
【図8】
8
【図9】
9
【図10】
10
【図11】
11
【図12】
12
【図13】
13
【図14】
14
【図15】
15