Top > Search of Japanese Patents > AUTOMATIC SYSTEM AND METHOD FOR TEMPORAL ALIGNMENT OF MUSIC AUDIO SIGNAL WITH LYRIC

AUTOMATIC SYSTEM AND METHOD FOR TEMPORAL ALIGNMENT OF MUSIC AUDIO SIGNAL WITH LYRIC

Patent code P180015487
File No. 1546
Posted date Nov 21, 2018
Application number P2007-233682
Publication number P2008-134606A
Patent number P5131904
Date of filing Sep 10, 2007
Date of publication of application Jun 12, 2008
Date of registration Nov 16, 2012
Priority data
  • P2006-289289 (Oct 24, 2006) JP
Inventor
  • (In Japanese)藤原 弘将
  • (In Japanese)奥乃 博
  • (In Japanese)後藤 真孝
Applicant
  • (In Japanese)国立大学法人京都大学
  • (In Japanese)国立研究開発法人産業技術総合研究所
Title AUTOMATIC SYSTEM AND METHOD FOR TEMPORAL ALIGNMENT OF MUSIC AUDIO SIGNAL WITH LYRIC
Abstract PROBLEM TO BE SOLVED: To provide an automatic system for temporal alignment between a music audio signal and lyrics, capable of preventing accuracy for temporal alignment from being lowered due to the influence of non-vocal sections.
SOLUTION: An alignment means 17 includes a phone model 15 for singing voice that estimates phonemes corresponding to temporal-alignment features. The alignment means 17 receives temporal-alignment features output from a temporal-alignment feature extraction means 11, information on the vocal and non-vocal sections output from a vocal section estimation means 9, and a phoneme network SN, and performs an alignment operation on condition that no phoneme exists at least in non-vocal sections.
Outline of related art and contending technology (In Japanese)

コンパクトディスク(CD)などの記録媒体に記録されたディジタル音楽データ(音楽音響信号)のうち、特に、人の音声(例えば歌声)と人の音声以外の音(例えば伴奏音)とで構成されるディジタル音楽データを再生する際に、人の音声の発話内容(すなわち歌詞)を伴奏音と時間的に同期させながら視覚的に表示させる技術は、いわゆるカラオケ装置などでよく使用されている。

しかし、従来のカラオケ装置の場合、伴奏音とその歌手の歌声とは正確に同期しておらず、その音楽の歌詞が楽譜上で予定されているテンポで順次画面上に表示されているにすぎない。そのため、実際の発話のタイミングと画面上の表示とが大きくずれることも多い。しかも、伴奏音と歌声の同期作業は、人間の手を介して行われるものであり、かなりの人的労力を必要とする。

ところで、いわゆる音声認識技術に代表されるように、人の発話内容を解析する技術が知られている。この技術は、伴奏音がない歌声(これを「単独歌唱」という。)のディジタル音楽データからその発話内容(歌詞)を認識するというものである。これについてはいくつかの研究結果が報告されている。しかしながら、伴奏音の影響を一切考慮しない音声認識技術を、市販のコンパクトディスク(CD)またはインターネット等の電気通信回線を通じて配信されるディジタル音楽データにそのまま適用することは極めて困難である。

伴奏音を含む歌唱に関する研究としては、各音素の持続する時間長を学習し、歌声を複数の区間に割り振るものが知られている(下記非特許文献1参照)。この技術は、ビートトラッキングやさび部分の検出など高次の情報を利用する。しかしながら、この技術は音韻的な特徴(例えば、母音や子音など)を全く考慮していない。そのため、正解率がそれほど高くないという問題がある。また、拍子やテンポなどについての制約が大きいため、多くの種類の楽曲に適用することができないという問題もある。

また特開2001-117582号公報(特許文献1)には、カラオケ装置において、歌唱者(入力者)の歌声の音素列と特定の歌手の歌声の音素列とをアラインメント手段を利用して対応付けする技術が開示されている。しかしながらこの公報には、音楽音響信号と歌詞とを時間的に対応付ける技術は何も開示されていない。

また特開2001-125562号公報(特許文献2)には、歌声と伴奏音とを含む混合音の音楽音響信号から、各時刻において歌声を含む最も優勢な音高の音高推定を行って優勢音音響信号を抽出する技術が開示されている。この技術を用いると、音楽音響信号から伴奏音を抑制した優勢音音響信号を抽出することができる。

そして藤原弘将、奥乃博、後藤真孝他が、「伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法」と題する論文[情報処理学会論文誌Vol.47 No.6(発表:2006.6)](非特許文献2)にも、特許文献2に示された伴奏音を抑制する技術が開示されている。またこの論文には、歌声と非歌声を学習させた2つの混合ガウス分布(GMM)を用いて、優勢音音響信号から歌声区間と非歌声区間を検出する技術が開示されている。さらにこの論文には、歌声に関する特徴量としてLPCメルケプストラムを用いることが開示されている。
【非特許文献1】
Ye Wang, et al.; LyricAlly: Automatic Synchronization of Acoustic Musical Signals and Textual Lyrics, Proceeding of the 12th ACM International Conference on Multimedia, October 10-15, 2004.
【非特許文献2】
藤原弘将、奥乃博、後藤真孝他著の「伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法」と題する論文[情報処理学会論文誌Vol.47 No.6(発表:2006.6)]
【特許文献1】
特開2001-117582号公報
【特許文献2】
特開2001-125562号公報

Field of industrial application (In Japanese)

本発明は、歌声と伴奏音とを含む楽曲の音楽音響信号と歌詞との時間的対応付け(アラインメント)を自動で行うシステム及び方法並びに該システムで用いるプログラムに関するものである。

Scope of claims (In Japanese)
【請求項1】
 
歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻で最も優勢な調波構造を持つ優勢音の基本周波数を推定し、前記基本周波数に基づいて前記歌声の調波構造を抽出し且つ前記歌声が無いときには前記伴奏音から最も優勢な調波構造を持つ優勢音の調波構造を抽出し、前記調波構造を再合成して前記伴奏音を抑制した優勢音音響信号を抽出する優勢音音響信号抽出手段と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出手段と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定手段と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出手段と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素とショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶手段と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント手段とを備え、前記アラインメント手段は、前記時間的対応付け用特徴量抽出手段から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。

【請求項2】
 
前記歌声区間推定手段は、予め複数の学習用楽曲に基づいて学習により得られた歌声と非歌声の複数の混合ガウス分布を記憶するガウス分布記憶手段を備え、
前記歌声区間推定手段は、複数の前記歌声区間推定用特徴量と前記複数の混合ガウス分布とに基づいて、前記歌声区間と前記非歌声区間を推定するように構成されている特徴とする請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。

【請求項3】
 
前記歌声区間推定手段は、
前記各時刻における前記歌声区間推定用特徴量と前記混合ガウス分布とに基づいて、前記各時刻における歌声対数尤度と非歌声対数尤度とを計算する対数尤度計算手段と、
前記各時刻における前記歌声対数尤度と前記非歌声対数尤度との対数尤度差を計算する対数尤度差計算手段と、
前記音楽音響信号の全期間から得られる複数の前記対数尤度差に関するヒストグラムを作成するヒストグラム作成手段と、
前記ヒストグラムを、前記楽曲に依存した、歌声区間における前記対数尤度差のクラスと非歌声区間における対数尤度差のクラスに2分割する場合に、クラス間分散を最大とするような閾値を決定し、該閾値を楽曲依存のバイアス調整値と定めるバイアス調整値決定手段と、
前記バイアス調整値を補正するために、前記バイアス調整値にタスク依存値を加算して歌声区間を推定する際に用いる推定用パラメータを決定する推定用パラメータ決定手段と、
前記各時刻における前記歌声対数尤度及び前記非歌声対数尤度を前記推定用パラメータを用いて重み付けを行う重み付け手段と、
前記音楽音響信号の全期間から得られる、重み付けされた複数の前記歌声対数尤度及び重み付けされた複数の前記非歌声対数尤度を、それぞれ隠れマルコフモデルの歌声状態(sV)の出力確率及び非歌声状態(sN)の出力確率とみなして、前記音楽音響信号の全期間における前記歌声状態と前記非歌声状態の最尤経路を計算し、前記最尤経路から前記音楽音響信号の全期間における前記歌声区間と前記非歌声区間に関する情報を決定する最尤経路計算手段とを備えている請求項2に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。

【請求項4】
 
前記重み付け手段は、前記歌声状態(sV)の出力確率logp(x|sV)及び前記非歌声状態(sN)の出力確率logp(x|sN)を下記の式で近似し、
【数1】
 
(省略)
【数2】
 
(省略)
上記式において、NGMM(x;θV)は歌声の混合ガウス分布(GMM)の確率密度関数を表し、NGMM(x;θN)は非歌声の混合ガウス分布(GMM)の確率密度関数を表し、θV及びθNは前記複数の学習用楽曲に基づいて予め学習により定められたパラメータであり、ηは前記推定用パラメータであり、
前記最尤経路計算手段は、前記最尤経路を下記の式を用いて計算し、
【数3】
 
(省略)
上記式において、p(x|st)は状態stの出力確率を表し、p(st+1|st)は、状態stから状態st+1への遷移確率を表している請求項3に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。

【請求項5】
 
前記アラインメント手段は、ビタビアラインメントを用いて前記アラインメント動作を実行するように構成され、
前記ビタビアラインメントの実行において、前記非歌声区間には音素が存在しないという条件として、少なくとも前記非歌声区間をショートポーズとする条件を定め、前記ショートポーズにおいては、他の音素の尤度をゼロとして、前記アラインメント動作を実行することを特徴とする請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。

【請求項6】
 
前記歌声用音響モデルは、話し声用の音響モデルのパラメータを、歌声と伴奏音を含む楽曲中の前記歌声の音素を認識できるように再推定して得た音響モデルである請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。

【請求項7】
 
前記音響モデルは、歌声だけを含む単独歌唱の適応用音楽音響信号と、該適応用音楽音響信号に対する適応用音素ラベルとを用いて、前記話し声用音響モデルのパラメータを、前記適応用音楽音響信号から前記歌声の音素を認識できるように再推定して得た単独歌唱用の音響モデルである請求項6に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。

【請求項8】
 
前記音響モデルは、
歌声だけを含む単独歌唱の適応用音楽音響信号と、該適応用音楽音響信号に対する適応用音素ラベルとを用いて、前記話し声用音響モデルのパラメータを、前記適応用音楽音響信号から前記歌声の音素を認識できるように再推定して得た単独歌唱用の音響モデルを用意し、
前記歌声に加えて伴奏音を含む適応用音楽音響信号から抽出した前記歌声を含む最も優勢な音の優勢音音響信号と、該優勢音音響信号に対する適応用音素ラベルとを用いて、前記単独歌唱用の音響モデルのパラメータを、前記優勢音音響信号から前記歌声の音素を認識できるように再推定して得た分離歌声用の音響モデルである請求項6に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。

【請求項9】
 
前記音響モデルは、
歌声だけを含む単独歌唱の適応用音楽音響信号と、該適応用音楽音響信号に対する適応用音素ラベルとを用いて、前記話し声用音響モデルのパラメータを、前記適応用音楽音響信号から前記歌声の音素を認識できるように再推定して得た単独歌唱用の音響モデルを用意し、
次に前記歌声に加えて伴奏音を含む適応用音楽音響信号から抽出した前記歌声を含む最も優勢な音の優勢音音響信号と、該優勢音音響信号に対する適応用音素ラベルとを用いて、前記単独歌唱用の音響モデルのパラメータを、前記優勢音音響信号から前記歌声の音素を認識できるように再推定して得た分離歌声用の音響モデルを用意し、
次に前記時間的対応付け用特徴量記憶手段に記憶されている前記複数の時間的対応付け用特徴量と前記音素ネットワークに記憶されている前記音素ネットワークとを用いて、前記分離歌声用の音響モデルのパラメータを前記優勢音音響信号抽出手段に入力された前記音楽音響信号の前記楽曲を歌う特定の歌手の音素を認識できるように推定して得た特定歌手用の音響モデルである請求項6に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。

【請求項10】
 
歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻で最も優勢な調波構造を持つ優勢音の基本周波数を推定し、前記基本周波数に基づいて前記歌声の調波構造を抽出し且つ前記歌声が無いときには前記伴奏音から最も優勢な調波構造を持つ優勢音の調波構造を抽出し、前記調波構造を再合成して前記伴奏音を抑制した優勢音音響信号を優勢音響信号抽出手段が抽出する優勢音音響信号抽出ステップと、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を歌声区間推定用特徴量抽出手段が抽出する歌声区間推定用特徴量抽出ステップと、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を歌声区間推定手段推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定ステップと、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を時間的対応付け用特徴量抽出手段が抽出する時間的対応付け用特徴量抽出ステップと、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素とショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶手段に記憶する記憶ステップと、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優音音響信号とを時間的に対応付けるアラインメント動作をアラインメント手段が実行するアラインメントステップとからなり、
前記アラインメントステップでは、アラインメント手段が、前記時間的対応付け用特徴量抽出ステップで得られる前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行う方法。

【請求項11】
 
歌声と伴奏音とを含む楽曲の音楽音響信号と歌詞の時間的対応付けを行うためにコンピュータを、
前記音楽音響信号から、各時刻で最も優勢な調波構造を持つ優勢音の基本周波数を推定し、前記基本周波数に基づいて前記歌声の調波構造を抽出し且つ前記歌声が無いときには前記伴奏音から最も優勢な調波構造を持つ優勢音の調波構造を抽出し、前記調波構造を再合成して前記伴奏音を抑制した優勢音音響信号を抽出する優勢音音響信号抽出手段と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出手段と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定手段と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記優勢音音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出手段と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素とショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶手段と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント手段として機能させ、
前記アラインメント手段に、前記時間的対応付け用特徴量抽出手段から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行させるための音楽音響信号と歌詞の時間的対応付け用プログラム。

【請求項12】
 
請求項11に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2007233682thum.jpg
State of application right Registered
Please contact us by e-mail or facsimile if you have any interests on this patent. Thanks.


PAGE TOP

close
close
close
close
close
close
close