TOP > 国内特許検索 > 子音加工装置、音声情報伝達装置及び子音加工方法

子音加工装置、音声情報伝達装置及び子音加工方法 新技術説明会

国内特許コード P08A013608
整理番号 QP050124
掲載日 2008年8月22日
出願番号 特願2006-040187
公開番号 特開2007-219188
登録番号 特許第4876245号
出願日 平成18年2月17日(2006.2.17)
公開日 平成19年8月30日(2007.8.30)
登録日 平成23年12月9日(2011.12.9)
発明者
  • 中島 祥好
  • 安武 達朗
出願人
  • 国立大学法人九州大学
発明の名称 子音加工装置、音声情報伝達装置及び子音加工方法 新技術説明会
発明の概要

【課題】本発明は、アルタイムに近い音声情報伝達が行え、信号処理が簡単で、騒音の多い環境でも、高齢者や聴覚障害者でも子音が聞き取り易く、安価な子音加工装置と音声情報伝達装置及び子音加工方法を提供することを目的とする。
【解決手段】本発明は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部1と、フレーム信号のそれぞれで平均パワーまたは音圧レベルを算出するパワー算出部2と、フレーム信号間で平均パワーまたは音圧レベルを互いに比較する比較部3と、比較部3の比較結果に基づいて音声信号が子音であるか否かを判定する子音判定部4と、子音判定部4が子音と判断した場合は音声信号の増幅対象点または増幅対象幅を増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備えたことを主要な特徴とする。
【選択図】図1

従来技術、競合技術の概要


聴力が低下した高齢者や聴覚障害者は、一般の人と比べてどうしても言葉を聞き取る力が低下する。このような高齢者や聴覚障害者にとって、飛行場等の構内放送や電車、バス内の案内放送、自動販売機やATMのガイド音声など、周囲に騒音の多い公共空間における各種音声の内容を正確に聞き取るのは難しい。中でも緊急時における避難誘導の音声は、内容が理解できないと大きな事故に繋がりかねない。



このような言葉の聞き取り力が衰えた高齢者や聴覚障害者のために、受信機を携帯してもらって電波や赤外線などの通信媒体を介して、音声を送信するワイヤレス放送システムが開発されている。このようなシステムでは、発声者は騒音の少ない静かな場所で、口元近くに配置したマイクに向けて発声し、そのクリアな音声が通信媒体を介して直接使用者に送られる。従って、使用者はどんな騒音環境下においても、常にクリアな音声を聴取できる。



また、補聴器などの聴覚補助機器では、周囲の騒音を抑制する騒音抑制機能(noise reduction)や、後述するような音声の中の子音のみを強調する子音強調機能(consonant enhancement)などを備えた機種が提案されている。とくに子音強調は、音声の子音の振幅が母音に比べて小さいために、高齢者や聴覚障害者が、子音部を聞き取ることが困難であるという事実に着目して開発された技術である。



しかし、このような現象は聴力の低下に由来するものには限られない。聴力が低下していない人間でも、構内放送や案内放送などのアナウンス放送装置、携帯電話、その他の音声情報伝達装置は、騒音の多い環境下では騒音で音声が聞き取れなくなる。これに対して、出力の大きなスピーカやイヤホンを搭載して音量を大きくすればよいが、聴覚の許容限界を越えてしまう可能性がある上に、装置の大きさに限界があり、また、音の歪み等が大きくなる。



このため、音声を聞き取り易くする目的で音声強調の幾つかの手法が提案されるに至った。この音声強調というのは、音声の周波数スペクトルの所定帯域におけるスペクトル振幅を増幅し、聞く側からみて音声の明瞭度を向上させることであり、これは、所定の周波数帯域パワーを増幅すると共に、増幅帯域と異なる帯域のスペクトル振幅を減衰させることである。(特許文献1参照)。



ここで、音声の発生するメカニズムについて説明すると、声帯が振動すると、声帯から唇までの声道で音声波が生成され、この声道で生成された音声波を唇及び舌等とを介して音声として放射する。すなわち、声帯が一定周期(ピッチ周期)の振動をすると、声道は、肺からの空気を喉等の形状(例えば太さ)で共振させて母音を生成する。このとき、喉等の形状を変化させることで「あ」、「い」、「う」等の母音に調音し、音声波として放射する。そして、唇及び舌等では、口内で破裂音や摩擦音、また、鼻音、その他の音を発生して子音とし、通常は子音と母音とが合わさって空間に放射されるものである。



ところで、日本語はCV(Consonant-Vowel)型の言語であり、例えば日本語で「か」という発音は、「くっ」という子音(C)と「あ」という母音(V)とから構成され、子音と母音とが合わさって放射される。また、例えば英語はCVC(Consonant-Vowel- Consonant)型の言語でもあり、子音、母音、子音の順に配列されることが多いことが知られている。



従って、日本語の場合、「ん」「っ」を除いて他の行の発音は、このような子音(C)と母音(V)の組合せなどで発音され、言葉を発するときは、多くの場合各音において、まず唇及び舌等を使って声帯からの音が妨げられて子音が調音され、次いで、声帯からの音が妨げられることなく母音が強い音で発声されることになる。



このため、子音は母音に比べて音声の振幅が小さく、音声情報伝達装置の音声は周囲の環境等では雑音に紛れて聞こえなくなる。このため、例えば、音声を明瞭に聞き分けることが可能な補聴器等の音声情報伝達装置が提案された(特許文献2参照)。



特許文献2の音声情報伝達装置は、外部から音声が入力されるマイクロフォンと、入力された音声信号に基づいて子音明瞭化信号を生成する音声信号処理部と、搬送波信号を生成する搬送波信号発生部と、搬送波信号を子音明瞭化信号に基づいて振幅変調する振幅変調部と、振幅変調された出力信号に基づく機械的振動を伝達する振動子とから構成され、この音声信号処理部が、子音抽出部で音声信号に含まれる子音部を抽出すると共に、反復処理部で抽出された子音部子音部が複数回反復されて音声信号に付加して子音明瞭化信号を生成するものである。



音声信号における子音部は、母音部との間にVOT(Voice Onset Time)が数十ms程度存在する。このVOTは、子音の破裂から声帯が振動するまでの時間であり、無音に近い状態である。したがって、子音部の立ち上がりや母音に比べて振幅は小さく、適当な基準値を設定し、振幅がこの基準値以下となる状態が所定時間(例えば、10ms程度)以上続く領域をVOTとして判別することにより、子音部の残余部分や母音部と区別して、子音部の終期を特定することができるというものである。



同様に、母音部の後、次に続く子音部との間にも、通常は数十ms以上の無音区間が存在する。従って、VOTの検出と同様にしてこの無音区間を判別することにより、次の子音部の始期を特定するものである。



また、特許文献2と同様、上述した特許文献1においても、携帯電話等の受話音声の明瞭度を改善し、入力音声に雑音が含まれる場合に音声品質の劣化及び雑音の増加を抑圧する音声強調装置が提案されている。



特許文献1の音声強調装置は、入力音声信号の音声品質を推定し音声品質推定値(推定S/N比)を出力する音声品質推定部と、音声品質推定部にて出力された音声品質推定値に基づいて、入力音声信号の声道特性の調整(ホルマントの増幅、アンチホルマントの減衰)と、入力音声信号の残差信号の強調(ピッチの強調)を行う音声強調処理部とを備えたものである。なお、この残差信号とは、音声波から線形予測可能な部分の除去により分離されたもの音源信号で、これの自己相関を算出することにより、音源のピッチ周期が得られるものである。




【特許文献1】特開2005-331783号公報

【特許文献2】特開2005-287600号公報

産業上の利用分野


本発明は、リアルタイムの音声情報伝達が行え、信号処理が簡単で、騒音の多い環境でも、高齢者や聴覚障害者でも子音または音節の端点が聞き取り易く、安価に製造できる子音加工装置と、これを搭載した音声情報伝達装置及び子音加工方法に関する。

特許請求の範囲 【請求項1】
1音節の長さが100ms~400ms、子音の長さが数十msとして表される何れかの長さをもつ音声を対象にして子音強調する子音加工装置であって、
入力された音声信号に対して前記子音の長さを含む数十msの幅を抽出できる時間フレームによっ第2のフレーム信号を抽出しかつ増幅度算出の対象にされる時点の信号を前記時間フレームの時間軸における範囲の中央位置の信号に設定する第2の時間フレームと、前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2の時間フレームよりも狭い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において雑音判定するための信号を抽出する前記子音の長さを含む数十msの幅の1/3の幅またはこの1/3と同等に雑音判定が行える前記子音の長さを含む数十msの幅の1/3程度の幅を備えた時間フレームによって第1のフレーム信号を抽出する第1の時間フレームと、前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2の時間フレームよりも広い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において子音または音節の端点の判定をするための信号を前記音声信号から抽出する時間フレームによって前記音声信号から前記音節の1~3倍長さ第3のフレーム信号を抽出する第3の時間フレームとを有するフレーム分割部と、
前記第1、第2及び第3のフレーム信号のそれぞれで平均パワーを算出するパワー算出部と、
前記第1と第2のフレーム信号の平均パワーの差を計算してこの差が閾値を越えるか否かを比較すると共に、前記第2と第3のフレーム信号の平均パワーの比較を行う比較部と、
前記比較部の比較結果に基づいて前記差が前記閾値を越えたときには雑音と判定すると共に、前記差が前記閾値を越えずかつ前記第2のフレーム信号の平均パワーが前記第3のフレーム信号の平均パワーより小さい場合に前記音声信号の増幅度算出の対象にされる時点の信号が子音または音節の端点であると判定する子音判定部と、
前記子音判定部が子音または音節の端点と判断した場合は前記音声信号の増幅度算出の対象にされる時点の信号またはその時点における所定の時間幅の信号を算出で得られた増幅度で増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備え、
前記第1と第2のフレーム信号の平均パワーが、前記音声信号の増幅度算出の対象にされる時点の信号に対する雑音か否かの判定に用いられると共に、前記第2と第3のフレーム信号の平均パワーが、前記増幅度算出の対象にされる時点の音声信号に対する子音または音節の端点か否かの判定のために用いられることを特徴とする子音加工装置。

【請求項2】
1音節の長さが100ms~400ms、子音の長さが数十msとして表される何れかの長さをもつ音声を対象にして子音強調する子音加工装置であって、
入力された音声信号に対して前記子音の長さを含む数十msの幅を抽出できる時間フレームによっ第2のフレーム信号を抽出しかつ増幅度算出の対象にされる時点の信号を前記時間フレームの時間軸における範囲の中央位置の信号に設定する第2の時間フレームと、前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2の時間フレームよりも狭い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において雑音判定するための信号を抽出する前記子音の長さを含む数十msの幅の1/3の幅またはこの1/3と同等に雑音判定が行える前記子音の長さを含む数十msの幅の1/3程度の幅を備えた時間フレームによって第1のフレーム信号を抽出する第1の時間フレームと、前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2の時間フレームよりも広い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において子音または音節の端点の判定をするための信号を前記音声信号から抽出する時間フレームによって前記音声信号から前記音節の1~3倍長さ第3のフレーム信号を抽出する第3の時間フレームとを有するフレーム分割部と、
前記第1、第2及び第3のフレーム信号のそれぞれで平均パワーを算出するパワー算出部と、
前記第1と第2のフレーム信号の平均パワーの差を計算してこの差が閾値を越えるか否かを比較すると共に、前記第2と第3のフレーム信号の平均パワーの比較を行う比較部と、
前記比較部の比較結果に基づいて前記差が前記閾値を越えたときには雑音と判定すると共に、前記差が前記閾値を越えずかつ前記第2のフレーム信号の平均パワーが前記第3のフレーム信号の平均パワーより小さい場合に前記音声信号の増幅度算出の対象にされる時点の信号が子音または音節の端点であると判定する子音判定部と、
前記子音判定部が子音または音節の端点と判断した場合は前記音声信号の増幅度算出の対象にされる時点の信号またはその時点における所定の時間幅の信号を算出で得られた増幅度で増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備え、
前記子音判定部が子音または音節の端点と判断した場合は前記音声信号の増幅度算出の対象にされる時点の信号またはその時点における所定の時間幅の信号の増幅度を増幅方向に決定すると共に、子音または音節の端点でないと判断した場合は前記音声信号を増幅しない旨決定する増幅度決定部と、
前記増幅度決定部が決定した増幅度に応じて前記音声信号を増幅する増幅部とを備え、
前記第1と第2のフレーム信号の平均パワーが、前記音声信号の増幅度算出の対象にされる時点の信号に対する雑音か否かの判定に用いられると共に、前記第2と第3のフレーム信号の平均パワーが、前記増幅度算出の対象にされる時点の音声信号に対する子音または音節の端点か否かの判定のために用いられることを特徴とする子音加工装置。

【請求項3】
前記比較部が、前記第1と第2のフレーム信号のデシベル表示した平均パワーの差を算出し、前記閾値をこの差と比較することを特徴とする請求項1または2に記載された子音加工装置。

【請求項4】
前記比較部が、各フレーム信号の平均パワーの差に代えて、平均パワーの比率を算出することにより比較することを特徴とする請求項1または2に記載された子音加工装置。

【請求項5】
請求項1~4の何れか1項に記載の子音加工装置において、前記第3の時間フレームは前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2の時間フレームよりも広い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において子音または音節の端点の判定をするための信号を前記音声信号から抽出する時間フレームによって前記第3のフレーム信号を抽出し、前記音声信号の増幅度算出の対象にされる時点の信号が第2の時間フレームの時間軸における範囲の中央位置の信号に設定され、前記第3のフレーム信号の平均パワーが、前記増幅度算出の対象にされる時点の音声信号に対する子音または音節の端点か否かの判定のために用いられるのに代えて、前記第2の時間フレームに連続して後置される第4の時間フレームによって第4のフレーム信号を抽出し、前記音声信号の増幅度算出の対象にされる時点の信号が前記第2の時間フレームの時間軸におけ範囲の後端となる前記第4の時間フレームとの境界の信号に設定され、前記第4のフレーム信号の平均パワーが、前記増幅度算出の対象にされる時点の音声信号に対する子音または音節の端点か否かの判定のために用いられることを特徴とする子音加工装置。

【請求項6】
前記フレーム分割部に音声信号を入力する前に、所定の周波数成分を通過させる通過特性を有するフィルタ部が設けられたことを特徴とする請求項1~5のいずれかに記載の子音加工装置。

【請求項7】
請求項1~6のいずれかに記載された子音加工装置と、該子音加工装置からの子音加工された音声信号に基づいて子音強調された音声を出力するスピーカを備えたことを特徴とする音声情報伝達装置。

【請求項8】
1音節の長さが100ms~400ms、子音の長さが数十msとして表される何れかの長さをもつ音声を対象にして子音強調するとき、入力された音声信号に対して増幅度算出の対象にする時点の信号を、前記子音の長さを含む数十msの幅を抽出できる第2の時間フレームの時間軸における範囲の中央位置の信号に設定し、この第2の時間フレームにより前記音声信号から第2のフレーム信号を抽出し、前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2の時間フレームよりも狭い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において雑音判定するための信号を抽出する前記子音の長さを含む数十msの幅の1/3の幅またはこの1/3と同等に雑音判定が行える前記子音の長さを含む数十msの幅の1/3程度の幅を備えた第1の時間フレームによって前記音声信号から時間軸上で第1のフレーム信号を抽出すると共に、前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2のフレームよりも広い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において子音または音節の端点の判定をするための信号を前記音声信号から抽出する第3の時間フレームによって前記音声信号から前記音節の1~3倍長さ第3のフレーム信号を抽出し、前記第1、第2及び第3のフレーム信号のそれぞれで平均パワーを算出し、前記第1と第2のフレーム信号の平均パワーの差を計算してこの差が閾値を越えるか否かを比較すると共に、前記第2と第3のフレーム信号の平均パワーの比較を行い、この比較結果に基づいて前記差が前記閾値を越えたときには雑音と判定すると共に、前記差が前記閾値を越えずかつ前記第2のフレーム信号の平均パワーが前記第3のフレーム信号の平均パワーより小さい場合に音声信号の増幅度算出の対象にされる時点の信号が子音または音節の端点であると判定し、子音または音節の端点と判断される場合は前記音声信号の増幅度算出の対象にされる時点の信号またはその時点における所定の時間幅の信号を算出で得られた増幅度で増幅し、子音または音節の端点でないと判断した場合は増幅せず、前記第1と第2のフレーム信号の平均パワーを前記音声信号の増幅度算出の対象にされる時点の信号に対する雑音か否かの判定に用いると共に、前記第2と第3のフレーム信号の平均パワーを子音または音節の端点か否かの判定のために用いることを特徴とする子音加工方法。

【請求項9】
1音節の長さが100ms~400ms、子音の長さが数十msとして表される何れかの長さをもつ音声を対象にして子音強調するとき、入力された音声信号に対して増幅度算出の対象にする時点の信号を、前記子音の長さを含む数十msの幅を抽出できる第2の時間フレームの時間軸における範囲の中央位置の信号に設定し、この第2の時間フレームにより前記音声信号から第2のフレーム信号を抽出し、前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2の時間フレームよりも狭い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において雑音判定するための信号を抽出する前記子音の長さを含む数十msの幅の1/3の幅またはこの1/3と同等に雑音判定が行える前記子音の長さを含む数十msの幅の1/3程度の幅を備えた第1の時間フレームによって前記音声信号から時間軸上で第1のフレーム信号を抽出すると共に、前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2のフレームよりも広い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において子音または音節の端点の判定をするための信号を前記音声信号から抽出する第3の時間フレームによって前記音声信号から前記音節の1~3倍長さ第3のフレーム信号を抽出し、前記第1と第2のフレーム信号の平均パワーの比率を計算してこの比率が閾値を越えるか否かを比較すると共に、前記第2と第3のフレーム信号の平均パワーの比較を行い、この比較結果に基づいて前記比率が前記閾値を越えたときには雑音と判定すると共に、前記比率が前記閾値を越えずかつ前記第2のフレーム信号の平均パワーが前記第3のフレーム信号の平均パワーより小さい場合に音声信号の増幅度算出の対象にされる時点の信号が子音または音節の端点であると判定し、子音または音節の端点と判断される場合は前記音声信号の増幅度算出の対象にされる時点の信号またはその時点における所定の時間幅の信号を算出で得られた増幅度で増幅し、子音または音節の端点でないと判断した場合は増幅せず、前記第1と第2のフレーム信号の平均パワーを前記音声信号の増幅度算出の対象にされる時点の信号に対する雑音か否かの判定に用いると共に、前記第2と第3のフレーム信号の平均パワーを子音または音節の端点か否かの判定のために用いることを特徴とする子音加工方法。

【請求項10】
請求項8または9に記載の子音加工方法において、前記増幅度算出の対象にされる時点の信号が時間軸の範囲の中央位置に配置され前記第2のフレームよりも広い時間軸の幅を有し前記第2のフレーム信号との平均パワーの比較において子音または音節の端点の判定をするための信号を前記音声信号から抽出する第3の時間フレームによって前記第3のフレーム信号を抽出し、かつ増幅度算出の対象にされる時点の信号を第2の時間フレームの時間軸の範囲において中央位置の信号に設定し、前記第3のフレーム信号の平均パワーを子音または音節の端点か否かの判定のために用いるのに代えて、前記第2の時間フレームに連続して後置される第4の時間フレームによって前記第4のフレーム信号を抽出し、かつ前記音声信号の増幅度算出の対象にされる時点の信号を前記第2の時間フレームの時間軸の範囲の後端となる前記第4の時間フレームとの境界に設定し、前記第4のフレーム信号の平均パワーを子音または音節の端点か否かの判定のために用いることを特徴とする子音加工方法。
産業区分
  • 電子応用機器
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2006040187thum.jpg
出願権利状態 権利存続中
上記の特許・技術に関心のある方は、下記問合せ先にご相談下さい。


PAGE TOP

close
close
close
close
close
close
close