TOP > 国内特許検索 > 音声検索装置及び音声検索方法

音声検索装置及び音声検索方法 実績あり

国内特許コード P09S000240
掲載日 2009年12月4日
出願番号 特願2007-529275
登録番号 特許第4961565号
出願日 平成18年8月1日(2006.8.1)
登録日 平成24年4月6日(2012.4.6)
国際出願番号 JP2006315228
国際公開番号 WO2007015489
国際出願日 平成18年8月1日(2006.8.1)
国際公開日 平成19年2月8日(2007.2.8)
優先権データ
  • 特願2005-223155 (2005.8.1) JP
発明者
  • 佐藤 寧
出願人
  • 国立大学法人九州工業大学
発明の名称 音声検索装置及び音声検索方法 実績あり
発明の概要

標準音声パターンを必要とせず、音声の個人差にも影響されず検索精度の高い音声検索装置を提供する。
検索対象音声データの有声音のピッチ周期を等化したピッチ等化検索対象音声データの中から、音声の特徴量空間において、クエリー音声データの有声音のピッチ周期を等化したピッチ等化クエリー音声データに対する距離尺度が所定の閾値以下である部分音声データを検索する部分音声検索手段を備えた構成とする。ピッチ周期を等化することによって、音声帯域の男女差や個人差にほとんど影響されず、高い精度で音声検索を行うことが可能となる。

従来技術、競合技術の概要


近年、多くの蓄積映像・音声データの中から、視聴者が最も知りたい情報の部分だけを取り出すマルチメディア・データベースの要請が強まりつつある。代表的な例としては、蓄積された多くのニュース番組の中から、視聴者が最も知りたいニュースのみを取り出すニュース・オンデマンド(News On Demand:NOD)・システムなどがある。



かかるマルチメディア・データベースを構築するためには、テレビニュースなどの蓄積された映像・音声データの中から、検索キーワードの音声(以下「クエリー音声」という。)に合致する部分を検索する音声検索技術が必要とされる。



検索対象音声データの中からクエリー音声に合致する部分を検索する音声検索装置としては、特許文献1に記載のものが公知である。



図12は、特許文献1に記載の音声検索装置の構成を表す図である。この音声検索装置では、検索データ生成部100の音声信号入力部102に音声信号が入力されると、当該音声信号は、検索対象音声データとして記録部201に記憶される。この際、映像検索インデックス生成部104が生成する映像検索インデックスが付加される。また、音声信号に同期して映像信号入力部101には映像信号が入力され、記録部201に蓄積映像データとして記憶される。一方、クエリー音声は、検索処理部200のキーワード入力部203から入力され、キーワードパターン照合部205において検索対象音声データと照合され、もっとも一致する音声信号が音声信号出力部207から出力される。以下、これらの処理を概説する。



まず、音声信号入力部102に音声信号が入力されると、音声特徴パターン抽出部103は、入力音声を10msecの分析フレームに分割する。そして、各分析フレームについて、高速フーリエ変換を行い、発生周波数帯域の音響特性データを生成する。さらに、この音響特性データを、音響特徴量から構成されるN次元のベクトルデータ(以下「特徴パターン」という。)に変換する。ここで、音響特徴量としては、入力音声の発生周波数帯域における短時間スペクトル又はその対数値、入力音声の一定時間内における対数エネルギー等が用いられる。



次に、映像検索インデックス生成部104は、音声特徴パターン収納部105から第1番目の標準音声パターンを取り出す。



ここで、音声特徴パターン収納部105には、500個の標準音声パターンが予め記憶されている。標準音声パターンとは、予め複数の話者から収集した発音を分析して、サブワード単位(#V,#CV,#CjV,CV,CjV,VC,QC,VQ,VV,V#:但し、Cは子音、Vは母音、jは拗音、Qは促音、#は無音。)で抽出した音声特徴パターンを統計処理して標準化したものである。



映像検索インデックス生成部104は、処理対象となる1つの音声区間に対して、第1番目の標準音声パターンと入力音声の音声特徴パターンとの類似度を、DP照合法やHMM(Hidden Markov Model)等の音声認識処理により計算される。そして、第1番目の標準音声パターンに対して最も高い類似度を示す区間を「サブワード区間」として検出する。以下、サブワード区間の類似度を「スコア」という。映像検索インデックス生成部104は、サブワード区間の音素記号、発声区間(始端時刻、終端時刻)、及びスコアの組を「映像検索インデックス」として出力する。



同様に、第2番目以降の標準音声パターンについてもサブワード区間を検出し、検出サブワード区間に関する映像検索インデックスを出力する。



当該音声区間において、すべての標準音声パターンに関して映像検索インデックスが生成されたならば、映像検索インデックス生成部104は、処理対象となる音声区間を隣接する次の音声区間に移し、同様の処理を実行する。そして、入力音声の全区間に亘って映像検索インデックスを作成したところで、処理を終了する。



入力音声の音声データと映像検索インデックスは、検索対象音声データとして記録部201に記憶される。図13は記録部201に記憶された映像検索インデックスのラティス構造の一部を示す図である。図13では、10msec単位で分割した入力音声の各音声区間の終端を、その音声区間に対して生成した各映像検索インデックスの終端とし、同一音声区間における映像検索インデックスを生成された順番に配置している。このような映像検索インデックスのラティス構造を「音素類似度表」と呼ぶ。尚、「ラティス」とは、連続する種々の音声区間に対して、複数の音素や単語の候補とその可能性を表の形で表したものをいう(非特許文献1,p.198参照)。



クエリー音声を用いて映像シーンを検索する処理は次のように行われる。まず、キーワード入力部203に検索キーワードであるクエリー音声が入力される。キーワード変換部204は、クエリー音声をサブワードの時系列に変換する。次に、キーワードパターン照合部205は、音素類似度表の中から、クエリー音声を構成するサブワードだけをピックアップする。そして、ピックアップされた複数のラティス上のサブワードを、検索キーワードを変換したサブワードの系列順に隙間なく接続する。



例えば、クエリー音声としてキーワード入力部203に「空(そら)」が入力された場合、キーワード変換部204は、サブワードの系列「SO」,「OR」,「RA」を生成する。キーワードパターン照合部205は、音素類似度表からサブワード「SO」,「OR」,「RA」をピックアップして、これを隙間なく接続する。この場合、ある時刻のラティスからサブワード「RA」を取り出し、サブワード「RA」の始端時刻にあたるラティスからその前のサブワード「OR」を取り出し、さらにサブワード「OR」の始端時刻に当たるラティスからサブワード「SO」を取り出す。そして、最後のサブワード「RA」の終端を基準にして「SO」「OR」「RA」を連結する。



このようにサブワード(上記例では、「SO」「OR」「RA」)を連結することによって復元されたキーワードについて、その復元キーワードのスコアの総和を計算する。



以下同様に、サブワード「RA」の終端時刻をずらした復元キーワードをすべての時刻について順次作成し、各復元キーワードについてそのスコアを計算する(図14参照)。



制御部202は、スコアが上位となる復元キーワードの先頭サブワードの始端時刻から対応する映像信号のタイムコードを算出する。そして、記憶部201に蓄積された蓄積映像データ・検索対象音声データの該当部分を再生する制御を行う。

【特許文献1】特開2000-236494号公報(特許第3252282号公報)

【特許文献2】特開2005-91709号公報

【非特許文献1】古井貞煕,「音響・音声工学」,近代科学社,pp.194-210

産業上の利用分野


本発明は、蓄積された検索対象音声データの中から、所定の音声に合致する部分を検索するための音声検索装置に関する。

特許請求の範囲 【請求項1】検索対象音声データの中から、クエリー音声データに一致又は類似する部分音声データを検索する音声検索装置であって、
前記検索対象音声データの有声音のピッチ周期を等化したピッチ等化検索対象音声データの中から、音声の特徴量空間において、前記クエリー音声データの有声音のピッチ周期を等化したピッチ等化クエリー音声データに対する距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)である部分音声データを検索する部分音声検索手段
を備えていることを特徴とする音声検索装置。
【請求項2】前記クエリー音声データの有声音のピッチ周期を等化することにより前記ピッチ等化クエリー音声データを生成するピッチ周期等化手段と、
前記ピッチ等化クエリー音声データを特徴量の時系列データに変換したデータ(以下「クエリー特徴データ」という。)を生成する特徴データ生成手段と、
を備え、
前記部分音声検索手段は、前記ピッチ等化検索対象音声データに含まれる部分音声データのうち、その特徴量が、前記クエリー特徴データとの間の距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)であるものを検索すること
を特徴とする請求項1記載の音声検索装置。
【請求項3】前記部分音声検索手段は、
前記ピッチ等化検索対象音声データを特徴量の時系列データに変換した検索対象特徴データの中から、前記クエリー音声データと同じ音素長分の部分データ(以下「選択特徴データ」という。)を、選択位置を移動させながら順次選択する部分音声選択手段と、
前記各選択特徴データと前記クエリー特徴データとの間の距離尺度(又は類似尺度)を演算する特徴量尺度演算手段と、
前記距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力する一致位置判定手段と、
を備えていることを特徴とする請求項1又は2記載の音声検索装置。
【請求項4】前記検索対象特徴データを記憶する音声記憶手段
を備えていることを特徴とする請求項3記載の音声検索装置。
【請求項5】前記検索対象音声データの有声音のピッチ周期を等化することにより前記ピッチ等化検索対象音声データを生成する第2のピッチ周期等化手段と、
前記ピッチ等化検索対象音声データを特徴量の時系列データに変換することにより、前記検索対象特徴データを生成する第2の特徴データ生成手段と、
を備えていることを特徴とする請求項3又は4記載の音声検索装置。
【請求項6】前記ピッチ周期等化手段(又は第2のピッチ周期等化手段)は、
前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数の検出を行うピッチ検出手段、
前記ピッチ周波数と所定の基準周波数との差分を演算する残差演算手段、
及び、前記差分が最小となるように、前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数を等化する周波数シフタ
を具備することを特徴とする請求項2又は5記載の音声検索装置。
【請求項7】前記検索対象特徴データ及び前記クエリー特徴データは、それぞれ、前記ピッチ等化検索対象音声データ及び前記ピッチ等化クエリー音声データを直交変換して得られるサブバンド・データの時系列であることを特徴とする請求項1乃至6の何れか一記載の音声検索装置。
【請求項8】前記クエリー特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第1の区間分割手段と、
前記検索対象特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第2の区間分割手段と、
を備え、
前記特徴量尺度演算手段は、前記第1及び第2の区間分割手段が生成する平均値の時系列データの間の距離尺度(又は類似尺度)を演算すること
を特徴とする請求項2又は5記載の音声検索装置。
【請求項9】前記クエリー音声データ(又は前記検索対象音声データ)に対して音素ラベリングを行うことによりクエリー音素列(又は検索対象音素列)を生成する音素ラベリング処理手段と、
前記前記選択特徴データに対応する前記検索対象音素列と前記クエリー音素列との距離尺度(又は類似尺度)を決定する音素列尺度演算手段と、
前記特徴量尺度演算手段が出力する特徴量の距離尺度(又は類似尺度)と、前記音素列尺度演算手段が出力する音素列の距離尺度(又は類似尺度)との線形和(以下「総合距離尺度(又は総合類似尺度)」という。)を算出する総合尺度演算手段と、
を備え、
前記一致位置判定手段は、前記総合距離尺度(又は総合類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力すること
を特徴とする請求項1乃至8の何れか一記載の音声検索装置。
【請求項10】検索対象音声データの中から、クエリー音声データに一致又は類似する部分音声データを検索する音声検索方法であって、
前記検索対象音声データの有声音のピッチ周期を等化したピッチ等化検索対象音声データの中から、音声の特徴量空間において、前記クエリー音声データの有声音のピッチ周期を等化したピッチ等化クエリー音声データに対する距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)である部分音声データを検索する部分音声検索ステップ
を有することを特徴とする音声検索方法。
【請求項11】 前記クエリー音声データの有声音のピッチ周期を等化することにより前記ピッチ等化クエリー音声データを生成するピッチ周期等化ステップと、
前記ピッチ等化クエリー音声データを特徴量の時系列データに変換したデータ(以下「クエリー特徴データ」という。)を生成する特徴データ生成ステップと、
を備え、
前記部分音声検索ステップにおいては、前記ピッチ等化検索対象音声データに含まれる部分音声データのうち、その特徴量が、前記クエリー特徴データとの間の距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)であるものを検索すること
を特徴とする請求項10記載の音声検索方法。
【請求項12】 前記部分音声検索ステップにおいては、
前記ピッチ等化検索対象音声データを特徴量の時系列データに変換した検索対象特徴データの中から、前記クエリー音声データと同じ音素長分の部分データ(以下「選択特徴データ」という。)を、選択位置を移動させながら順次選択する部分音声選択ステップと、
前記各選択特徴データと前記クエリー特徴データとの間の距離尺度(又は類似尺度)を演算する特徴量尺度演算ステップと、
前記距離尺度(又は類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力する一致位置判定ステップと、
を有することを特徴とする請求項10又は11記載の音声検索方法。
【請求項13】 前記検索対象特徴データを記憶する音声記憶ステップ
を備えていることを特徴とする請求項12記載の音声検索方法。
【請求項14】 前記検索対象音声データの有声音のピッチ周期を等化することにより前記ピッチ等化検索対象音声データを生成する第2のピッチ周期等化ステップと、
前記ピッチ等化検索対象音声データを特徴量の時系列データに変換することにより、前記検索対象特徴データを生成する第2の特徴データ生成ステップと、
を有することを特徴とする請求項12又は13記載の音声検索方法。
【請求項15】前記ピッチ周期等化ステップ(又は第2のピッチ周期等化ステップ)においては、
前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数の検出を行うピッチ検出ステップと、
前記ピッチ周波数と所定の基準周波数との差分を演算する残差演算ステップと、
前記差分が最小となるように、前記クエリー音声データ(又は前記検索対象音声データ)のピッチ周波数を等化する周波数シフトステップと
を具備することを特徴とする請求項11又は14記載の音声検索方法。
【請求項16】前記検索対象特徴データ及び前記クエリー特徴データは、それぞれ、前記ピッチ等化検索対象音声データ及び前記ピッチ等化クエリー音声データを直交変換して得られるサブバンド・データの時系列であることを特徴とする請求項10乃至15の何れか一記載の音声検索方法。
【請求項17】前記クエリー特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第1の区間分割ステップと、
前記検索対象特徴データを、音素区間ごとに平均化し、平均値の時系列データに変換する第2の区間分割ステップと、
を有し、
前記特徴量尺度演算ステップにおいては、前記第1及び第2の区間分割ステップにおいて生成される平均値の時系列データの間の距離尺度(又は類似尺度)を演算すること
を特徴とする請求項11又は14記載の音声検索方法。
【請求項18】前記クエリー音声データ(又は前記検索対象音声データ)に対して音素ラベリングを行うことによりクエリー音素列(又は検索対象音素列)を生成する音素ラベリングステップと、
前記選択特徴データに対応する前記検索対象音素列と前記クエリー音素列との距離尺度(又は類似尺度)を決定する音素列尺度演算ステップと、
前記特徴量尺度演算ステップにおいて出力される特徴量の距離尺度(又は類似尺度)と、前記音素列尺度演算ステップにおいて出力される音素列の距離尺度(又は類似尺度)との線形和(以下「総合距離尺度(又は総合類似尺度)」という。)を算出する総合尺度演算ステップと、
を備え、
前記一致位置判定ステップにおいては、前記総合距離尺度(又は総合類似尺度)が所定の閾値以下(又は所定の閾値以上)の場合、前記選択特徴データに対応する検索対象音声データ内の位置を出力すること
を特徴とする請求項10乃至17の何れか一記載の音声検索方法。
【請求項19】コンピュータに読み込んで実行することにより、コンピュータを請求項1乃至8の何れか一の音声検索装置として機能させることを特徴とするプログラム。
産業区分
  • 電子応用機器
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

24445_01SUM.gif
出願権利状態 権利存続中
詳細は、下記「問合せ先」まで直接お問い合わせください。


PAGE TOP

close
close
close
close
close
close
close