TOP > クイック検索 > 国内特許検索 > 対話システムおよびプログラム

対話システムおよびプログラム

国内特許コード P210017917
整理番号 2230
掲載日 2021年9月30日
出願番号 特願2019-173551
公開番号 特開2021-051172
出願日 令和元年9月24日(2019.9.24)
公開日 令和3年4月1日(2021.4.1)
発明者
  • 小林 哲則
  • 藤江 真也
出願人
  • 学校法人早稲田大学
発明の名称 対話システムおよびプログラム
発明の概要 【課題】システムの応答性を向上させ、衝突の発生を回避または抑制しつつ、不要に長いシステムの交替潜時の発生を回避または抑制することができる対話システムを提供する。
【解決手段】ユーザ発話の音声信号から抽出した音響特徴量を用いて、音声認識処理手段41とは非同期で、ユーザ発話権の維持・終了を識別してシステム発話の開始タイミングを検出するシステム発話タイミング検出手段22と、その検出前に、題材データ記憶手段51等に記憶された題材データ、対話履歴情報や進行中のユーザ発話の途中までの音声認識処理の結果を用いて、システムの次発話を準備する次発話準備手段43と、システム発話の開始タイミングの検出後に、次発話準備手段43により準備された次発話を用いて、システム発話を再生する発話生成手段25とを設け、対話システム10を構成した。
【選択図】図1
従来技術、競合技術の概要

一般に、音声対話システムは、人であるユーザと、コンピュータシステムである自身との間で、互いに主に音声チャネルを通じた言語情報のやりとりを行うことにより、所望のタスクを実行し、その目的(例えば、ユーザへのニュース等の記事の内容の伝達、ユーザに対するガイダンス、ユーザへのアンケート、ユーザによる情報検索、ユーザによる機器等の操作、ユーザの教育、システムによる情報特定等)を達成するものである。

より詳細には、従来の音声対話システムでは、先ず、ユーザ発話の音声信号を取得し(音声信号取得)、連続的に得られる音声信号から、ユーザの発話が途切れたことを手がかりとして発話単位の音声信号を切り出す発話区間検出を行い(発話区間検出)、次に、得られた発話区間の音声信号を言語情報に変換する音声認識処理を行うことにより、検出したユーザ発話の意味を推定し(音声認識)、続いて、推定した意味に応じて次発話を決定し、すなわち得られたユーザの言語情報に適したシステム発話の内容を生成し(発話内容生成)、さらに、その発話内容を音声信号に変換する音声合成処理を行い(音声合成)、その後、システム発話の内容をユーザに伝達するため、生成したシステム発話の音声信号を再生する処理を行う(音声信号再生)。従来の音声対話システムは、これらの一連の処理を、原則的にはシーケンシャルに行うため、それぞれの処理における遅延が蓄積することで、ユーザが発話を完了してから、システムが応答するまでに長い遅延が生じることになる。

音声対話における二者間の発話の間(ま)の長さを交替潜時と呼ぶが、人同士の円滑な対話における交替潜時は、平均的には0.6秒程度であり、長くとも1秒程度である。また、相手の発話が終了する前に、発話を開始することも多く、これを衝突と呼ぶ。一方、近年普及しているスマートスピーカ等の対話システムと人との対話においては、ユーザの発話終了からシステムの発話開始までの間(ま)(以下、特にユーザからシステムという方向性を持たせた交替潜時を指すときは、システムの交替潜時と呼ぶ。)が、1秒から数秒となることが多い。従来の研究によれば、一方の交替潜時が他方の交替潜時に影響を与えるとされているので、システムの交替潜時が不要に長くなると、これに影響されてユーザの間(ま)(システムの発話終了からユーザの応答開始までに要する時間)も長くなる。これにより、対話全体に要する時間が不要に長くなるため、タスク達成の効率や、ユーザ体験の観点から好ましくない。

従って、システムの応答性を向上させることにより、上述した従来生じていたユーザ発話とシステム発話との間に生じる不要に長い無音の時間を短くするか、あるいは発生そのものを避けることが望ましく、それを実現するためには、システム発話の開始タイミングを適切に検出することが必要となる。なぜなら、システムの交替潜時を短くするためにシステム発話の開始タイミングを不当に早めるような方法で検出処理を行えば、衝突が発生する可能性が高くなるので、単純にシステム発話の開始タイミングが早まる方法を採用すればよいというものではないからである。

より詳細には、従来の音声対話システムでは、ユーザ発話の終了時をシステム発話の開始タイミングとみなしていた。1対1の対話においては、これは極めて自然な考え方であるが、そもそもユーザ発話が終了する現象の定義が明確ではなかった。例えば、特定の長さ(例えば、100ミリ秒以上)のポーズで区切られた音声区間をInter-Pausal Unit(IPU)と呼び、音声分析や会話分析では音声区間の単位として広く用いられているが、100ミリ秒程度の無音区間は、1人の話者の発話区間内にも頻繁に生じるため、必ずしもその前後で話者交替が起こるわけではない。そのため、ユーザ発話の音声信号における短い無音区間をシステム発話の開始タイミングの検出に用いると、生成して再生を開始したシステム発話と、継続されたユーザ発話とがオーバーラップする衝突を起こし、対話を崩してしまう可能性がある。一方、より長い無音区間で区切ることにより、オーバーラップ(衝突)を防ぐことはできるが、システム発話の開始タイミングは、無音区間の長さだけ遅れ、ユーザ発話とシステム発話との間の無音区間を短くすることができなくなる。

また、従来の音声認識では、音声認識対象とする音声区間を決定するために音声区間検出(Voice Activity Detection;VAD)と呼ばれる処理を行う。音声信号の振幅やゼロ交差数を閾値処理する単純なものから、音声信号から得られる特徴量に基づき確率的に音声が含まれるか否かを確定するモデルなど、様々な手法が研究されてきた。しかし、システム発話の開始タイミングを早期に決定するということを意図した手法は提案されていなかった。

さらに、システム発話の開始タイミングを決定するために、ユーザ発話の継続または終了、あるいはシステムが次にどのような行動をとるべきか(発話だけに限らず、相槌なども含む)を検出する技術も、本願発明者らにより研究されているが、ユーザ発話途中でのシステムの相槌・復唱の生成技術を除けば、これらは全て音声認識と同様にVADを前提としており、VAD処理による遅延の影響を排除することができない。

これらの従来技術に対し、本願発明者らは、音声信号を逐次処理し、短い周期(例えば、10ミリ秒~100ミリ秒)で音声信号から音響特徴量を抽出し、抽出した音響特徴量を用いて、システムが発話をすべきか否かの識別を行う技術、換言すれば、ユーザが発話する地位または立場を有していることを示すユーザ発話権の維持または終了(終了には、譲渡、放棄が含まれる。)を識別する技術を開発した(非特許文献1,2参照)。このようにすることで、音声区間検出処理(VAD処理)による遅延なしにシステム発話の開始タイミングを決定することができる。

なお、本発明では、複数の次発話候補が準備された場合に、その中から次発話を選択する処理が行われるが、この選択処理を行うために必要となる情報を生成する技術としては、本願発明者らにより開発された、韻律分析によりユーザ発話意図を推定する技術が知られている(非特許文献3参照)。

また、本発明は、例えば、ニュース対話システム、ガイダンス対話システム、アンケート対話システム、情報検索対話システム、操作対話システム、教育対話システム等の各種の対話システムに適用することができるが、ユーザへの効率的な情報伝達を実現することができる対話システムとしては、本願発明者らにより開発された、主計画および副計画からなるシナリオデータを用いてユーザに対してニュース等の記事の内容を伝達するニュース対話システムが知られている(非特許文献4参照)。

産業上の利用分野

本発明は、ユーザとの音声対話のための処理を実行するコンピュータにより構成された対話システムおよびプログラムに係り、例えば、ニュースやコラムや歴史等の各種の話題を記載した記事データから生成したシナリオデータを用いてユーザに対して記事の内容を伝達するニュース対話システム、ユーザに対して機器の使用方法の説明や施設の案内等を行うガイダンス対話システム、選挙情勢や消費者志向等の各種のユーザの動向調査を行うアンケート対話システム、ユーザが店舗・商品・旅行先・聞きたい曲等の情報検索を行うための情報検索対話システム、ユーザが家電機器や車等の各種の機器や装置等を操作するための操作対話システム、子供や学生や新入社員等であるユーザに対して教育を行うための教育対話システム、システムがユーザ属性等の情報を特定するための情報特定対話システム等に利用できる。

特許請求の範囲 【請求項1】
ユーザとの音声対話のための処理を実行するコンピュータにより構成された対話システムであって、
ユーザ発話の音声信号を取得する音声信号取得手段と、
この音声信号取得手段により取得したユーザ発話の音声信号についての音声認識処理を実行する音声認識処理手段と、
前記音声信号取得手段により取得したユーザ発話の音声信号から音響特徴量を抽出し、抽出した音響特徴量を用いるか、または、この音響特徴量に加え、前記音声認識処理手段による音声認識処理の結果として得られたユーザ発話の言語情報から抽出した言語特徴量を用いて、前記音声認識処理手段による音声認識処理の実行タイミングに依拠しない周期で、ユーザが発話する地位または立場を有していることを示すユーザ発話権の維持または終了を識別するパターン認識処理を繰り返し実行し、このパターン認識処理の結果を用いて、システム発話の開始タイミングを検出する処理を実行するシステム発話タイミング検出手段と、
このシステム発話タイミング検出手段による前記パターン認識処理の前記周期に依拠しないタイミングで、かつ、このシステム発話タイミング検出手段によりシステム発話の開始タイミングが検出される前に、題材データ記憶手段に記憶された題材データまたはネットワークを介して接続された外部システムに記憶された題材データを用いるとともに、ユーザとシステムとの間の対話履歴情報の少なくとも一部および/または前記音声認識処理手段による進行中のユーザ発話についての途中までの音声認識処理の結果を用いて、システムの次発話の内容データを取得または生成する準備処理を実行する次発話準備手段と、
前記システム発話タイミング検出手段によりシステム発話の開始タイミングが検出された後に、前記次発話準備手段による準備処理で得られた次発話の内容データを用いて、システム発話の音声信号の再生を含むシステム発話生成処理を実行する発話生成手段と
を備えたことを特徴とする対話システム。

【請求項2】
前記次発話準備手段は、
次発話の候補となる複数の次発話候補の内容データを取得または生成する準備処理を実行する構成とされ、
前記システム発話タイミング検出手段によりシステム発話の開始タイミングが検出された後に、前記音声認識処理手段による音声認識処理の結果として得られた言語情報を用いて、前記次発話準備手段による準備処理で得られた複数の次発話候補の内容データの中から、前記発話生成手段で用いる次発話の内容データを選択する処理を実行する次発話選択手段を備えた
ことを特徴とする請求項1に記載の対話システム。

【請求項3】
前記次発話準備手段は、
次発話の候補となる複数の次発話候補の内容データを取得または生成する準備処理を実行する構成とされ、
前記音声信号取得手段により取得したユーザ発話の音声信号から得られる韻律情報を用いるか、若しくは、この韻律情報に加えて、前記音声認識処理手段による音声認識処理の結果として得られたユーザ発話の言語情報を用いるか、またはこれらの韻律情報およびユーザ発話の言語情報に加えて、ユーザとシステムとの間の対話履歴情報のうちの直前のシステム発話の言語情報を用いて、質問、応答、相槌、補足要求、反復要求、理解、不理解、無関心、若しくはその他のユーザ発話意図を識別するパターン認識処理を繰り返し実行する次発話選択用情報生成手段と、
前記システム発話タイミング検出手段によりシステム発話の開始タイミングが検出された後に、前記次発話選択用情報生成手段による処理で得られた前記ユーザ発話意図の識別結果を用いて、前記次発話準備手段による準備処理で得られた複数の次発話候補の内容データの中から、前記発話生成手段で用いる次発話の内容データを選択する処理を実行する次発話選択手段と
を備えたことを特徴とする請求項1に記載の対話システム。

【請求項4】
前記次発話準備手段は、
次発話の候補となる複数の次発話候補の内容データを取得または生成する準備処理を実行する構成とされ、
前記音声信号取得手段により取得したユーザ発話の音声信号から得られる韻律情報を用いるか、若しくは、この韻律情報に加えて、前記音声認識処理手段による音声認識処理の結果として得られたユーザ発話の言語情報を用いるか、またはこれらの韻律情報およびユーザ発話の言語情報に加えて、ユーザとシステムとの間の対話履歴情報のうちの直前のシステム発話の言語情報を用いて、質問、応答、相槌、補足要求、反復要求、理解、不理解、無関心、若しくはその他のユーザ発話意図を識別するパターン認識処理を繰り返し実行する次発話選択用情報生成手段と、
前記システム発話タイミング検出手段によりシステム発話の開始タイミングが検出された後に、前記次発話選択用情報生成手段による処理で得られた前記ユーザ発話意図の識別結果と、前記音声認識処理手段による音声認識処理の結果として得られた言語情報とを組み合わせて用いて、前記次発話準備手段による準備処理で得られた複数の次発話候補の内容データの中から、前記発話生成手段で用いる次発話の内容データを選択する処理を実行する次発話選択手段と
を備えたことを特徴とする請求項1に記載の対話システム。

【請求項5】
前記次発話準備手段は、
次発話の候補となる複数の次発話候補の内容データを取得または生成する準備処理を実行する構成とされ、
前記システム発話タイミング検出手段は、
前記ユーザ発話権の維持または終了を識別するパターン認識処理を実行する際に、終了については、質問、応答、相槌、補足要求、反復要求、理解、不理解、無関心、若しくはその他のユーザ発話意図のうちのいずれのユーザ発話意図で終了するのかを識別するパターン認識処理を実行する構成とされ、
前記システム発話タイミング検出手段によりシステム発話の開始タイミングが検出された後に、前記システム発話タイミング検出手段による処理で得られたユーザ発話意図の識別結果を用いて、前記次発話準備手段による準備処理で得られた複数の次発話候補の内容データの中から、前記発話生成手段で用いる次発話の内容データを選択する処理を実行する次発話選択手段を備えた
ことを特徴とする請求項1に記載の対話システム。

【請求項6】
前記次発話準備手段による準備処理の状態を含むシステム状態を示す情報を記憶するシステム状態記憶手段を備え、
前記システム発話タイミング検出手段は、
前記ユーザ発話権の維持または終了を識別するパターン認識処理の結果および前記システム状態記憶手段に記憶されている前記システム状態を示す情報を用いて、システム発話の開始タイミングを検出する処理を実行する際に、
前記パターン認識処理の結果が前記ユーザ発話権の維持を示している場合には、システム発話の開始タイミングではないと判断し、
前記パターン認識処理の結果が前記ユーザ発話権の終了を示し、かつ、前記システム状態を示す情報が準備完了を示している場合には、システム発話の開始タイミングであると判断し、
前記パターン認識処理の結果が前記ユーザ発話権の終了を示し、かつ、前記システム状態を示す情報が準備中を示している場合には、前記次発話準備手段による準備中の処理内容に応じ、直ぐに完了する処理内容として予め分類されている処理の準備中であるときには、準備完了になるまで待ってシステム発話の開始タイミングであると判断し、直ぐに完了しない処理内容として予め分類されている処理の準備中であるときには、システム発話の開始タイミングであると判断するとともに、フィラーの挿入タイミングである旨の情報を出力する処理を実行する構成とされている
ことを特徴とする請求項1~5のいずれかに記載の対話システム。

【請求項7】
ユーザ発話継続時間を含むユーザ状態を示す情報を記憶するユーザ状態記憶手段を備え、
前記システム発話タイミング検出手段は、
前記ユーザ発話権の維持または終了を識別するパターン認識処理の結果および前記ユーザ状態記憶手段に記憶されている前記ユーザ状態を示す情報を用いて、システム発話の開始タイミングを検出する処理を実行し、この際の処理として、
(1)前記ユーザ状態記憶手段に記憶されている前記ユーザ発話継続時間が、予め定められた短時間判定用閾値以下または未満の場合には、前記パターン認識処理の結果として得られる尤度に対して設定されているユーザ発話権終了判定用閾値を標準値よりも高く設定し、予め定められた長時間判定用閾値以上または超過の場合には、前記ユーザ発話権終了判定用閾値を標準値よりも低く設定する処理と、
(2)前記ユーザ状態記憶手段に記憶されている前記ユーザ発話継続時間を用いて、前記パターン認識処理の結果として得られる尤度に対するユーザ発話権終了判定用閾値を、前記ユーザ発話継続時間が短いときには当該ユーザ発話権終了判定用閾値が高くなり、前記ユーザ発話継続時間が長いときには当該ユーザ発話権終了判定用閾値が低くなるように予め定められた関数により設定する処理と、
(3)前記ユーザ状態記憶手段に記憶されている前記ユーザ発話継続時間が、予め定められた短時間判定用閾値以下または未満の場合には、前記パターン認識処理の結果が前記ユーザ発話権の終了を示していても、システム発話の開始タイミングではないと判断し、予め定められた長時間判定用閾値以上または超過の場合には、前記パターン認識処理の結果が前記ユーザ発話権の維持を示していても、システム発話の開始タイミングであると判断する処理とのうちのいずれかの処理を実行する構成とされている
ことを特徴とする請求項1~6のいずれかに記載の対話システム。

【請求項8】
システムによる発話開始に対する要求の強さの度合いを示すシステム発話意欲度の指標値として、対話目的を達成するためのシステムの最終の次発話候補の内容データとなり得る目的データの残数および/または前記次発話準備手段による準備処理で得られた次発話候補の内容データの重要度を含むシステム状態を示す情報を記憶するシステム状態記憶手段を備え、
前記システム発話タイミング検出手段は、
前記パターン認識処理の結果として得られる尤度に対するユーザ発話権終了判定用閾値を、前記システム状態記憶手段に記憶されている前記目的データの残数および/または前記重要度で定まる前記システム発話意欲度を用いて、前記システム発話意欲度が強いときには当該ユーザ発話権終了判定用閾値が低くなり、前記システム発話意欲度が弱いときには当該ユーザ発話権終了判定用閾値が高くなるように予め定められた関数により設定する処理を実行する構成とされている
ことを特徴とする請求項2~5のいずれかに記載の対話システム。

【請求項9】
前記次発話準備手段は、
前記音声認識処理手段によるユーザ発話の音声認識処理の結果が新たに出力された場合には、新たに出力された当該音声認識処理の結果を用いて、次発話の候補となる複数の次発話候補の内容データの少なくとも一部を入れ替えるか否かを判定し、入れ替えると判定した場合には、次発話の候補となる別の複数の次発話候補の内容データを取得または生成する準備処理を実行する構成とされている
ことを特徴とする請求項2~5のいずれかに記載の対話システム。

【請求項10】
前記次発話準備手段は、
新たに出力された前記音声認識処理の結果を用いて、この結果に含まれる単語のうち予め定められた重要度の高い単語を用いて、ユーザの関心のある話題を決定し、前記題材データ記憶手段に記憶された題材データまたは前記外部システムに記憶された題材データの中から、決定した話題に関連付けられて記憶されている題材データを選択し、次発話の候補となる別の複数の次発話候補の内容データを取得または生成する準備処理を実行する構成とされている
ことを特徴とする請求項9に記載の対話システム。

【請求項11】
前記発話生成手段は、
前記音声信号取得手段により取得したユーザ発話の音声信号と、再生中のシステム発話の音声信号との衝突の発生を検出し、検出した衝突の発生情報を、ユーザ識別情報と関連付けてユーザ情報記憶手段に記憶させるとともに、ユーザ発話の終了からシステム発話の開始までの交替潜時を計測し、計測した交替潜時を、ユーザ識別情報と関連付けて前記ユーザ情報記憶手段に記憶させる処理も実行する構成とされ、
前記システム発話タイミング検出手段は、
前記ユーザ情報記憶手段に記憶されている音声対話相手のユーザとの衝突の発生情報を取得して当該ユーザとの衝突の発生頻度または累積発生回数を算出し、算出した衝突の発生頻度または累積発生回数が上方調整用閾値以上または超過の場合には、前記ユーザ発話権の維持または終了を識別するパターン認識処理の結果として得られる尤度に対して設定されているユーザ発話権終了判定用閾値を標準値または前回調整値よりも高く設定し、
前記ユーザ情報記憶手段に記憶されている音声対話相手のユーザについてのユーザ発話の終了からシステム発話の開始までの複数の交替潜時を取得して当該ユーザについての交替潜時の長短の傾向を示す平均値若しくはその他の指標値を算出し、算出した交替潜時の指標値が下方調整用閾値以上または超過の場合には、前記ユーザ発話権終了判定用閾値を標準値または前回調整値よりも低く設定する処理も実行する構成とされている
ことを特徴とする請求項1~10のいずれかに記載の対話システム。

【請求項12】
前記発話生成手段は、
前記音声認識処理手段による音声認識処理の結果として得られたユーザ発話の言語情報を用いて発話速度を算出し、算出した発話速度を、ユーザ識別情報と関連付けて前記ユーザ情報記憶手段に記憶させる処理も実行する構成とされ、
前記システム発話タイミング検出手段は、
前記ユーザ情報記憶手段に記憶されている音声対話相手のユーザについてのユーザ発話の終了からシステム発話の開始までの複数の交替潜時を取得して当該ユーザについての交替潜時の長短の傾向を示す平均値若しくはその他の指標値を算出し、算出した交替潜時の指標値が下方調整用閾値以上または超過の場合に、前記ユーザ発話権終了判定用閾値を標準値または前回調整値よりも低く設定する処理を実行する際に、
前記ユーザ情報記憶手段に記憶されている音声対話相手の複数の発話速度を取得して当該ユーザの発話速度の傾向を示す平均値若しくはその他の指標値を算出し、前記下方調整用閾値を、算出した前記発話速度の指標値を用いて、前記発話速度の指標値が大きいときには当該下方調整用閾値が小さくなり、前記発話速度の指標値が小さいときには当該下方調整用閾値が大きくなるように予め定められた関数により設定する処理を実行する構成とされている
ことを特徴とする請求項11に記載の対話システム。

【請求項13】
ユーザのリアルタイムの発話速度を含むユーザ状態を示す情報を記憶するユーザ状態記憶手段を備え、
前記発話生成手段は、
前記音声認識処理手段による音声認識処理の結果として得られたユーザ発話の言語情報を用いてリアルタイムの発話速度を算出し、算出したリアルタイムの発話速度を前記ユーザ状態記憶手段に記憶させる処理も実行する構成とされ、
前記システム発話タイミング検出手段は、
前記音声信号取得手段により取得したユーザ発話の音声信号から音響特徴量を抽出し、抽出した音響特徴量および前記ユーザ状態記憶手段に記憶されているリアルタイムの発話速度を用いるか、または、これらの音響特徴量およびリアルタイムの発話速度に加え、前記音声認識処理手段による音声認識処理の結果として得られたユーザ発話の言語情報から抽出した言語特徴量を用いて、前記音声認識処理手段による音声認識処理の実行タイミングに依拠しない周期で、前記ユーザ発話権の維持または終了を識別するパターン認識処理を繰り返し実行し、このパターン認識処理の結果を用いて、システム発話の開始タイミングを検出する処理を実行する構成とされている
ことを特徴とする請求項1~12のいずれかに記載の対話システム。

【請求項14】
請求項1~13のいずれかに記載の対話システムとして、コンピュータを機能させるためのプログラム。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2019173551thum.jpg
出願権利状態 公開
技術導入、技術提携、実用化開発(受託研究・共同研究等)のご相談を承っております。お気軽にご連絡ください。


PAGE TOP

close
close
close
close
close
close
close