Top > Search of Japanese Patents > VOICE INTERACTIVE SYSTEM, VOICE INTERACTIVE METHOD, PROGRAM, LEARNING MODEL GENERATION DEVICE, AND LEARNING MODEL GENERATION METHOD

VOICE INTERACTIVE SYSTEM, VOICE INTERACTIVE METHOD, PROGRAM, LEARNING MODEL GENERATION DEVICE, AND LEARNING MODEL GENERATION METHOD UPDATE_EN foreign

Patent code P200016836
File No. 6206
Posted date May 11, 2020
Application number P2018-162774
Publication number P2020-034835A
Date of filing Aug 31, 2018
Date of publication of application Mar 5, 2020
Inventor
  • (In Japanese)河原 達也
  • (In Japanese)堀 達朗
  • (In Japanese)渡部 生聖
Applicant
  • (In Japanese)国立大学法人京都大学
  • (In Japanese)トヨタ自動車株式会社
Title VOICE INTERACTIVE SYSTEM, VOICE INTERACTIVE METHOD, PROGRAM, LEARNING MODEL GENERATION DEVICE, AND LEARNING MODEL GENERATION METHOD UPDATE_EN foreign
Abstract PROBLEM TO BE SOLVED: To provide a voice interaction system capable of appropriately coping with generation of a response error.
SOLUTION: An utterance acquisition unit 102 acquires a user utterance. A feature extracting unit 104 extracts features of the user utterance. A response determination unit 120 determines a response according to an extracted feature vector by using any one of the plurality of learning models. A response execution unit 130 executes the determined response. A User state detection section 140 detects a user state. A learning model selection unit 150 selects a learning model from a plurality of learning models according to the detected user state. A response determining unit 120 determines a response by using the selected learning model.
Outline of related art and contending technology (In Japanese)

ユーザが音声対話ロボット(音声対話システム)と日常会話を楽しむための技術が普及しつつある。この技術にかかる音声対話ロボットは、ユーザが発声した音声の音韻情報等を解析して、解析結果に応じた応答を実行する。ここで、音声対話ロボットが学習モデルを用いて応答を決定することが、行われている。

上記の技術に関連し、特許文献1は、ユーザの発する音声からそのユーザの感情状態を判断して適切な対応動作を実行する感情状態反応動作装置を開示する。特許文献1にかかる感情状態反応動作装置は、音声情報の音韻スペクトルに係る特徴量を抽出する音韻特徴量抽出手段と、音韻特徴量を入力して、予め備えた状態判断テーブルに基づき音声情報の感情状態を判断する状態判断手段と、感情状態を入力して、予め備えた対応動作選択テーブルに基づき対応動作処理を決定する対応動作選択手段とを有する。さらに、特許文献1にかかる感情状態反応動作装置は、感情状態学習用テーブルと感情状態学習手段を備え、感情状態学習手段は、感情状態学習テーブルに基づいて所定の機械学習モデルにより音韻特徴量と感情状態との関連を取得して状態判断テーブルに学習結果を保存し、状態判断手段は、状態判断テーブルに基づいて上記機械学習モデルによる感情状態の判断を行う。

Field of industrial application (In Japanese)

本発明は、音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法に関し、特に、ユーザと音声を用いた対話を行うことが可能な音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法に関する。

Scope of claims (In Japanese)
【請求項1】
 
ユーザと音声を用いた対話を行う音声対話システムであって、
前記ユーザの発話であるユーザ発話を取得する発話取得部と、
前記取得されたユーザ発話の特徴を少なくとも抽出する特徴抽出部と、
予め機械学習によって生成された複数の学習モデルのうちのいずれかを用いて、前記抽出された特徴に応じた応答を決定する応答決定部と、
前記決定された応答を実行するための制御を行う応答実行部と、
前記ユーザの状態であるユーザ状態を検出するユーザ状態検出部と、
前記検出されたユーザ状態に応じて、前記複数の学習モデルから前記学習モデルを選択する学習モデル選択部と
を有し、
前記応答決定部は、前記学習モデル選択部によって選択された学習モデルを用いて、前記応答を決定する
音声対話システム。

【請求項2】
 
前記ユーザ状態検出部は、前記ユーザ状態として対話に対する前記ユーザの積極性の度合を検出し、
前記学習モデル選択部は、前記ユーザの積極性の度合に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。

【請求項3】
 
前記ユーザ状態検出部は、予め定められた期間における前記ユーザの発話量、又は、前記期間において当該音声対話システムが応答として音声を出力した時間と前記ユーザが発話した時間との合計に対する前記ユーザが発話した時間の割合を検出し、
前記学習モデル選択部は、前記ユーザの発話量又は前記ユーザが発話した時間の割合に対応する前記学習モデルを選択する
請求項2に記載の音声対話システム。

【請求項4】
 
前記ユーザ状態検出部は、前記ユーザ状態として前記ユーザの識別情報を検出し、
前記学習モデル選択部は、前記ユーザの識別情報に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。

【請求項5】
 
前記ユーザ状態検出部は、前記ユーザ状態として前記ユーザの感情を検出し、
前記学習モデル選択部は、前記ユーザの感情に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。

【請求項6】
 
前記ユーザ状態検出部は、前記ユーザ状態として前記ユーザの健康状態を検出し、
前記学習モデル選択部は、前記ユーザの健康状態に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。

【請求項7】
 
前記ユーザ状態検出部は、前記ユーザ状態として前記ユーザの覚醒状態の度合を検出し、
前記学習モデル選択部は、前記ユーザの覚醒状態の度合に対応する前記学習モデルを選択する
請求項1に記載の音声対話システム。

【請求項8】
 
ユーザと音声を用いた対話を行う音声対話システムを用いて行われる音声対話方法であって、
前記ユーザの発話であるユーザ発話を取得し、
前記取得されたユーザ発話の特徴を少なくとも抽出し、
予め機械学習によって生成された複数の学習モデルのうちのいずれかを用いて、前記抽出された特徴に応じた応答を決定し、
前記決定された応答を実行するための制御を行い、
前記ユーザの状態であるユーザ状態を検出し、
前記検出されたユーザ状態に応じて、前記複数の学習モデルから前記学習モデルを選択し、
前記選択された学習モデルを用いて、前記応答を決定する
音声対話方法。

【請求項9】
 
ユーザと音声を用いた対話を行う音声対話システムを用いて行われる音声対話方法を実行するプログラムであって、
前記ユーザの発話であるユーザ発話を取得するステップと、
前記取得されたユーザ発話の特徴を少なくとも抽出するステップと、
予め機械学習によって生成された複数の学習モデルのうちのいずれかを用いて、前記抽出された特徴に応じた応答を決定するステップと、
前記決定された応答を実行するための制御を行うステップと、
前記ユーザの状態であるユーザ状態を検出するステップと、
前記検出されたユーザ状態に応じて、前記複数の学習モデルから前記学習モデルを選択するステップと、
前記選択された学習モデルを用いて、前記応答を決定するステップと
をコンピュータに実行させるプログラム。

【請求項10】
 
ユーザと音声を用いた対話を行う音声対話システムで用いられる学習モデルを生成する学習モデル生成装置であって、
1以上の任意ユーザと対話を行うことによって前記任意ユーザの発話であるユーザ発話を取得する発話取得部と、
前記取得されたユーザ発話の特徴を少なくとも示す特徴ベクトルを抽出する特徴抽出部と、
前記ユーザ発話に対する応答を示す正解ラベルと前記特徴ベクトルとが対応付けられたサンプルデータを生成するサンプルデータ生成部と、
前記ユーザ発話を発したときの前記任意ユーザの状態であるユーザ状態を取得して、前記取得されたユーザ状態を前記ユーザ発話に対応する前記サンプルデータに対応付けるユーザ状態取得部と、
前記ユーザ状態ごとに前記サンプルデータを分類するサンプルデータ分類部と、
前記分類された前記サンプルデータごとに、機械学習によって複数の学習モデルを生成する学習モデル生成部と
を有する学習モデル生成装置。

【請求項11】
 
ユーザと音声を用いた対話を行う音声対話システムで用いられる学習モデルを生成する学習モデル生成方法であって、
1以上の任意ユーザと対話を行うことによって前記任意ユーザの発話であるユーザ発話を取得し、
前記取得されたユーザ発話の特徴を少なくとも示す特徴ベクトルを抽出し、
前記ユーザ発話に対する応答を示す正解ラベルと前記特徴ベクトルとが対応付けられたサンプルデータを生成し、
前記ユーザ発話を発したときの前記任意ユーザの状態であるユーザ状態を取得して、前記取得されたユーザ状態を前記ユーザ発話に対応する前記サンプルデータに対応付け、
前記ユーザ状態ごとに前記サンプルデータを分類し、
前記分類された前記サンプルデータごとに、機械学習によって複数の学習モデルを生成する
学習モデル生成方法。
IPC(International Patent Classification)
F-term
  • 5E555AA11
  • 5E555AA48
  • 5E555AA76
  • 5E555BA01
  • 5E555BA06
  • 5E555BA88
  • 5E555BB01
  • 5E555BB06
  • 5E555BC01
  • 5E555BC08
  • 5E555BC17
  • 5E555CA41
  • 5E555CA42
  • 5E555CA47
  • 5E555CB64
  • 5E555CB66
  • 5E555CB69
  • 5E555CB76
  • 5E555DA23
  • 5E555EA02
  • 5E555EA05
  • 5E555EA19
  • 5E555EA20
  • 5E555EA22
  • 5E555EA23
  • 5E555EA28
  • 5E555FA00
Drawing

※Click image to enlarge.

JP2018162774thum.jpg
State of application right Published
Please contact us by e-mail or facsimile if you have any interests on this patent. Thanks.


PAGE TOP

close
close
close
close
close
close
close