TOP > クイック検索 > 国内特許検索 > 読唇装置及び読唇方法

読唇装置及び読唇方法 新技術説明会

国内特許コード P190016523
整理番号 KIT19028
掲載日 2019年11月27日
出願番号 特願2019-213234
公開番号 特開2021-086274
出願日 令和元年11月26日(2019.11.26)
公開日 令和3年6月3日(2021.6.3)
発明者
  • 齊藤 剛史
出願人
  • 国立大学法人九州工業大学
発明の名称 読唇装置及び読唇方法 新技術説明会
発明の概要 【課題】発話者の口唇特徴に加え、表情特徴を考慮して機械学習を行うことにより、発話内容を高精度で推定することができ、必要に応じて、発話者の年代及び性別等の属性も考慮することにより、さらに推定精度を高めることができる読唇装置及び読唇方法を提供する。
【解決手段】学習対象画像及び評価対象画像を画像処理する画像処理部14が、学習対象画像及び評価対象画像から学習対象発話者及び評価対象発話者の顔領域を検出する顔検出手段22と、各顔領域から顔特徴点を検出する顔特徴点検出手段23と、各顔領域の顔特徴点から口唇領域を抽出する口唇領域抽出手段24と、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出し、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段25とを有する。
【選択図】図2
従来技術、競合技術の概要

従来、音声情報をテキストに変換する音声認識技術は、実験室等の低騒音の環境下では、十分な認識率が得られており、少しずつ普及しつつあるが、周囲の騒音の影響を受け易いオフィスや屋外等の騒音環境下、或いは声を出し難い電車や病院等の公共の場所では利用し難く、実用性に欠けるという問題があった。また、発話が困難な発話障害者は音声認識技術を利用することができず、汎用性に欠けるという問題もあった。
これに対して、読唇技術は、発話者の唇の動き等から発話内容を推定することができ、音声を発する必要がなく(音声情報を必要とせず)、映像のみでも発話内容を推定できるため、騒音環境下や公共の場所等でも利用が期待できるだけでなく、発話障害者も利用することができる。特に、コンピュータを用いた読唇技術であれば、特別な訓練を必要とせず、誰でも手軽に利用できるため、その普及が期待されている。
例えば、特許文献1には、口唇領域を含む顔画像を取得する撮像手段と、取得画像から口唇領域を抽出する領域抽出手段と、抽出された口唇領域より形状特徴量を計測する特徴量計測手段と、登録モードにおいて計測されたキーワード発話シーンの特徴量を登録するキーワードDBと、認識モードにおいて、登録されているキーワードの特徴量と、文章の発話シーンを対象として計測された特徴量とを比較することにより口唇の発話内容を認識する認識処理を行って、文章の中からキーワードを認識するワードスポッティング読唇を行う判断手段と、判断手段が行った認識結果を表示する表示手段とを備えたワードスポッティング読唇装置が開示されている。

産業上の利用分野

本発明は、発話者の口唇特徴に加え、表情特徴を考慮することにより、発話内容を高精度で推定することができる読唇装置及び読唇方法に関する。

特許請求の範囲 【請求項1】
学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記評価対象画像をそれぞれ画像処理して学習対象データ及び評価対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、評価時に、前記評価対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段とを有することを特徴とする読唇装置。

【請求項2】
請求項1記載の読唇装置において、前記学習処理部で構築される前記学習モデルは、前記学習対象発話者の年齢及び/又は性別に対応して属性別に構築され、前記認識処理部は、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された前記評価対象発話者の年齢及び/又は性別に対応した属性の前記学習モデルを選択して、発話内容の推定に利用することを特徴とする読唇装置。

【請求項3】
請求項1又は2記載の読唇装置において、前記学習対象発話者及び前記評価対象発話者の発話シーンを撮影する撮影手段を備えたことを特徴とする読唇装置。

【請求項4】
請求項1~3のいずれか1記載の読唇装置において、前記認識処理部で推定された前記評価対象発話者の発話内容を出力する認識結果出力部を備えたことを特徴とする読唇装置。

【請求項5】
請求項4記載の読唇装置において、前記認識結果出力部は、前記認識処理部で推定された前記評価対象発話者の発話内容を文字で表示するディスプレイ及び/又は音声で出力するスピーカを備えたことを特徴とする読唇装置。

【請求項6】
学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第1工程と、前記学習対象画像から前記学習対象発話者の顔領域を検出する学習時第2工程と、前記学習対象発話者の前記顔領域から前記学習対象発話者の顔特徴点を検出する学習時第3工程と、前記学習対象発話者の前記顔特徴点から前記学習対象発話者の口唇領域を検出する学習時第4工程と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出する学習時第5工程と、前記学習時第1工程~前記学習時第5工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習時第6工程と、前記学習モデルを保存する学習時第7工程と、保存された前記学習モデルを読み込む評価時第1工程と、評価対象発話者の発話シーンが記録された評価対象画像を読み込む評価時第2工程と、前記評価対象画像から前記評価対象発話者の顔領域を検出する評価時第3工程と、前記評価対象発話者の前記顔領域から前記評価対象発話者の顔特徴点を検出する評価時第4工程と、前記評価対象発話者の前記顔特徴点から前記評価対象発話者の口唇領域を検出する評価時第5工程と、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する評価時第6工程と、前記評価対象データと前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する評価時第7工程とを備えたことを特徴とする読唇方法。

【請求項7】
請求項6記載の読唇方法において、前記学習時第6工程で構築される前記学習モデルは、前記学習対象発話者の年齢及び/又は性別に対応して属性別に構築されることを特徴とする読唇方法。

【請求項8】
請求項7記載の読唇方法において、前記評価時第7工程では、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の前記学習モデルを選択して、前記発話内容の推定に利用することを特徴とする読唇方法。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2019213234thum.jpg
出願権利状態 公開
詳細は、下記「問合せ先」まで直接お問い合わせください。


PAGE TOP

close
close
close
close
close
close
close