TOP > 国内特許検索 > コミュニケーション支援システム

コミュニケーション支援システム コモンズ 新技術説明会

国内特許コード P120006742
整理番号 SHINGI20111216
掲載日 2012年2月28日
出願番号 特願2011-182594
公開番号 特開2013-045282
出願日 平成23年8月24日(2011.8.24)
公開日 平成25年3月4日(2013.3.4)
発明者
  • 齊藤 剛史
出願人
  • 国立大学法人九州工業大学
発明の名称 コミュニケーション支援システム コモンズ 新技術説明会
発明の概要

【課題】誤認識の場合でも誤ったメッセージが話し相手に伝わることを避けることができる発話障害者のための、あるいは異なる言語間の通訳のための、読唇技術を利用した実用性の高いコミュニケーション支援システムを提供する。
【解決手段】事前に登録した発話内容の中から話し相手に伝えたい発話内容を、その口唇の動きに基づきその特徴量をリアルタイムに計測し、この計測された特徴量とデータベースに登録されている特徴量を比較して、発話内容を判断して認識結果をコントローラに出力する。コントローラの指示に基づき正しい認識結果を出力部に出力する。
【選択図】 図1

従来技術、競合技術の概要


発話音声は人間の日常生活で最も身近かつ重要なコミュニケーション手段である。しかし喉頭摘出による声帯音源の喪失、筋・神経系の障害による構音制御の不具合、あるいは運動性言語中枢の麻痺により発話に障害をもつ人は、音声を用いたコミュニケーションが困難である。そのため、発話障害を補助する機器が開発されている。古くからあるもっとも単純な機器として50音の仮名が並べられた文字盤、あるいは指で示した文字を音声に置き換えて出力する電子機器がある。その他、文字でなく絵を利用する機器、人工喉頭などがある。



音声認識技術を利用して通訳するシステムに関しては、例えば、特許文献1がある。特許文献1は、音声だけでなく非言語情報(表情、読話、ジェスチャ、手話)を利用すると記述されているが、コンピュータにより認識するのは音声情報のみである。ユーザでなく話者(話し相手)の音声を言語情報として入力して認識する。話者の非言語情報は音声情報に対する認識とは異なり、単に映像として呈示しているのみで、コンピュータによる読話は行っていない。音声認識技術は、騒音環境下の音声が明瞭でない場所では認識精度が低下する。また声を出しにくい公共の場所などでは音声認識は利用できない。通訳(翻訳)システムに音声認識を利用する場合、ユーザは音声を発声するため、話し相手に声が聞こえるという問題がある。



一方、画像処理技術を利用して、発話時の視覚情報から発話内容を認識する読唇に関する研究が近年盛んに取り組まれている。読唇技術を利用したリアルタイムシステムは、単一フレーム画像を用いた口形認識を利用するアプローチと、口唇の時系列変化を利用した、いわゆる読唇を利用するアプローチの二つに大別される。



特許文献2では、口形認識とキー操作を併用したテキスト入力システムが提案されている。日本語の仮名50音表の異なる子音に対してはキーを、母音に対しては口形を対応させることによりテキスト入力を実現している。キー操作を利用することにより、早いテキスト入力を実現している。特許文献2のアプローチは半自動の口形認識である。



非特許文献1では、口形認識を利用した日常会話伝達システムが提案されている。これは障害をもつユーザであっても比較的容易に実施でき、かつ特徴的なパターンを有する、「口を開ける」、「歯を見せる」、「口をつぼめる」、「舌を出す」の4種類に相当する口形をメッセージ項目の選択に用いている。多くのメッセージに対応させるために日常会話を階層化している。



口形認識ではなく読唇を利用したリアルタイムシステムとして、音声認識技術と読唇技術を統合した音声自動認識システム(AV-ASR)が提案されている。これらのシステムは騒音環境下において音声認識精度が低下するのを防ぐことを目的として、補助的な機能として読唇技術を利用している。



非特許文献2は、本発明者らが先に提案したものであり、音声認識技術を利用せずに読唇技術のみを用いて単語を認識し、認識結果に応じて音声メッセージを出力する。このシステムでは顔下半分の画像を入力とし、Active appearance modelを適用した口唇領域の抽出、トラジェクトリ特徴量とDPマッチングによる認識を適用している。顔下半分の画像を用いているため、顔を大きく動かすと口唇領域が画像外に動いてしまう問題がある。また音声メッセージの出力が可能であるが、誤認識された場合においてもメッセージが出力されてしまい実用には不向きである。

産業上の利用分野


本発明は、発話障害者のための、あるいは異なる言語間の通訳のための読唇技術を用いたコミュニケーション支援システムに関する。

特許請求の範囲 【請求項1】
ユーザの発話した発話内容を、読唇により認識して話し相手に伝達するコミュニケーション支援システムにおいて、
発話内容の口唇の動きを計測するカメラと、
前記口唇の動きに基づき発話内容の特徴量をデータベースに登録する登録部と、
認識結果を表示する表示部、及び認識結果をもとにユーザが操作する入力手段とを有するコントローラと、
事前に登録した発話内容の中から話し相手に伝えたい発話内容を、その口唇の動きに基づきその特徴量をリアルタイムに計測し、この計測された特徴量と前記データベースに登録されている特徴量を比較して、発話内容を判断して認識結果を前記コントローラに出力すると共に、前記コントローラの指示に基づき正しい認識結果を出力する認識部と、
前記認識部より出力された認識結果を出力する出力部と、
から成るコミュニケーション支援システム。

【請求項2】
前記登録部は、前記カメラによって取得した取得顔画像から口唇領域を抽出する領域抽出手段、抽出された口唇領域より特徴量を計測する特徴量計測手段、及び抽出された口唇領域の変化より発話区間を検出する発話区間検出手段を有し、前記認識部は、前記領域抽出手段、前記特徴量計測手段、前記発話区間検出手段に加えて、計測された特徴量と登録されている前記データベースの特徴量を比較し、前記発話区間の発話内容を判断してその認識結果を前記コントローラに出力すると共に、前記コントローラの指示に基づき正しいと指示された認識結果をメッセージ出力手段に出力する判断手段を有する請求項1に記載のコミュニケーション支援システム。

【請求項3】
前記認識部は、誤認識と判断された認識結果を認識候補リストから取り除くことにより、連続して同じ認識結果に誤認識されることを防ぐ請求項1に記載のコミュニケーション支援システム。

【請求項4】
正認識結果を得られた場合、前記コントローラによる操作だけでなく、次の発話内容を入力することにより正認識を得られたと前記認識部が判断する請求項1に記載のコミュニケーション支援システム。

【請求項5】
前記コントローラに出力された認識結果の第1の言語と、前記メッセージ出力手段に出力された認識結果の第2の言語は互いに異なる言語であり、かつ、第2の言語は、第1の言語を通訳した関係にある通訳システムとして用いられる請求項1に記載のコミュニケーション支援システム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2011182594thum.jpg
出願権利状態 審査請求前
参考情報 (研究プロジェクト等) 2011年12月16日(金) 九州工業大学 新技術説明会
詳細は、下記「問合せ先」まで直接お問い合わせください。


PAGE TOP

close
close
close
close
close
close
close