TOP > 国内特許検索 > 音源定位・同定装置 > 明細書

明細書 :音源定位・同定装置

発行国 日本国特許庁(JP)
公報種別 特許公報(B2)
特許番号 特許第4982743号 (P4982743)
公開番号 特開2008-085472 (P2008-085472A)
登録日 平成24年5月11日(2012.5.11)
発行日 平成24年7月25日(2012.7.25)
公開日 平成20年4月10日(2008.4.10)
発明の名称または考案の名称 音源定位・同定装置
国際特許分類 H04R   3/00        (2006.01)
G10L  21/02        (2006.01)
H04R   1/40        (2006.01)
G06N   3/00        (2006.01)
G06N   3/063       (2006.01)
G10L  11/00        (2006.01)
G01S   3/802       (2006.01)
FI H04R 3/00 320
G10L 21/02 201D
H04R 1/40 320Z
G10L 21/02 203Z
G06N 3/00 560G
G06N 3/063
G10L 11/00 201A
G01S 3/802
請求項の数または発明の数 1
全頁数 20
出願番号 特願2006-260853 (P2006-260853)
出願日 平成18年9月26日(2006.9.26)
審査請求日 平成21年8月24日(2009.8.24)
特許権者または実用新案権者 【識別番号】304021277
【氏名又は名称】国立大学法人 名古屋工業大学
発明者または考案者 【氏名】岩田 彰
【氏名】黒柳 奨
個別代理人の代理人 【識別番号】100076473、【弁理士】、【氏名又は名称】飯田 昭夫
【識別番号】100112900、【弁理士】、【氏名又は名称】江間 路子
審査官 【審査官】鈴木 圭一郎
参考文献・文献 特開2001-216285(JP,A)
二俣宣義,他2名,FPGAのためのパルスニューロンモデルの実装手法,電子情報通信学会技術研究報告. NC, ニューロコンピューティング,日本,社団法人電子情報通信学会,2002年 3月13日,101(737),p121-128
岩佐要,他2名,競合学習パルスニューラルネットワークの勝者決定手法における勝者ニューロンの入力追従性に関する検討,電子情報通信学会技術研究報告. NC, ニューロコンピューティング ,日本,社団法人電子情報通信学会,2005年 3月21日,104(758),p173-178
岩佐要,他3名,パルスニューロンモデルによる時間差検出ネットワークの改良,電子情報通信学会技術研究報告. NC, ニューロコンピューティング,日本,社団法人電子情報通信学会,2006年 3月 9日,105(658),p151-156
黒柳奨,他1名,聴覚情報処理システムのためのパルスニューロンモデルを用いた競合学習ニューラルネットワーク,電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理,日本,社団法人電子情報通信学会,2004年 7月 1日,J87_D_II(7),p1496-1504
岩佐要,他1名,FPGAを用いたパルスニューロンモデルによる音源定位及び音源種類の識別システムの実装,電子情報通信学会論文誌. D, 情報・システム,日本,社団法人電子情報通信学会,2007年11月 1日,J90-D(11),p3079-3090
調査した分野 H04R 3/00-3/12
H04R 1/00-1/40
G01S 3/00-3/802
G06N 3/00-3/063
G10L 21/00-21/02
特許請求の範囲 【請求項1】
左右のマイクロフォンと、左の前記マイクロフォンに接続されて左の前記マイクロフォンから入力された左の入力信号を周波数成分毎に信号強度に応じたパルス頻度を持つパルス列(以下、「左信号」という。)に変換する左の入力信号処理部と、右の前記マイクロフォンに接続されて右の前記マイクロフォンから入力された右の入力信号を周波数成分毎に信号強度に応じたパルス頻度を持つパルス列(以下、「右信号」という。)に変換する右の入力信号処理部と、左右の前記入力信号処理部の両方に接続されて音源の方向を識別する音源定位部と、左右の前記入力信号処理部の少なくとも一方に接続されて音源の種類を識別する音源同定部とを備え、
前記音源定位部は、時間差特徴検出部と、前記時間差特徴検出部に接続された音源定位用抽出結果マッピング部とを備え、
前記音源同定部は、音源同定用周波数パターン検出部と、前記音源同定用周波数パターン検出部に接続された音源同定用検出パターンマッピング部とを備え、
前記時間差特徴検出部は、周波数成分毎に、それぞれ2つの入力端子と1つの出力端子とを有して両方の入力端子から同時に信号が入力されたときのみ発火するように構成された時間差検出用パルスニューロンモデルの列と、左信号用の時間遅れ素子の列と、右信号用の時間遅れ素子の列とを備えて、前記左信号用の時間遅れ素子の列を経由させることにより前記時間差検出用パルスニューロンモデルの列の一方の端から順に左信号を入力するとともに、前記右信号用の時間遅れ素子の列を経由させることにより前記時間差検出用パルスニューロンモデルの列の他方の端から順に右信号を入力することにより、入力信号間の時間差によって変化する特異パターンを出力するように構成され、
前記音源定位用抽出結果マッピング部は、
それぞれ複数の入力端子と1つの出力端子とを有する複数の第1競合学習パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第1競合学習パルスニューロンモデルの出力端子に接続されて前記第1競合学習パルスニューロンモデルが1つも発火していないときに発火するように構成された第1無発火検出パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第1競合学習パルスニューロンモデルの出力端子に接続されて前記第1競合学習パルスニューロンモデルが2つ以上発火しているときに発火するように構成された第1複数発火検出パルスニューロンモデルとを備え、前記各時間差検出用パルスニューロンモデルの出力端子、前記第1無発火検出パルスニューロンモデルの出力端子、及び、前記第1複数発火検出パルスニューロンモデルの出力端子が、前記各第1競合学習パルスニューロンモデルの入力端子に接続された第1ニューラルネットワーク、
から構成されて、認識時に前記時間差特徴検出部から入力された特異パターンを代表する参照ベクトルを持つ前記第1競合学習パルスニューロンモデルが発火するように構成され、
前記音源同定用周波数パターン検出部は、
それぞれ複数の入力端子と1つの出力端子とを有する複数の第2競合学習パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第2競合学習パルスニューロンモデルの出力端子に接続されて前記第2競合学習パルスニューロンモデルが1つも発火していないときに発火するように構成された第2無発火検出パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第2競合学習パルスニューロンモデルの出力端子に接続されて前記第2競合学習パルスニューロンモデルが2つ以上発火しているときに発火するように構成された第2複数発火検出パルスニューロンモデルとを備え、前記音源同定部に接続されている前記入力信号処理部の周波数成分毎の出力端子、前記第2無発火検出パルスニューロンモデルの出力端子、及び、前記第2複数発火検出パルスニューロンモデルの出力端子が、それぞれ前記各第2競合学習パルスニューロンモデルの入力端子に接続された第2ニューラルネットワーク、
から構成されて、認識時に前記入力信号処理部から入力された入力信号に存在する周波数パターンを代表する参照ベクトルを持つ前記第2競合学習パルスニューロンモデルが発火するように構成され、
前記音源同定用検出パターンマッピング部は、
それぞれ複数の入力端子と1つの出力端子とを有する複数の第3競合学習パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第3競合学習パルスニューロンモデルの出力端子に接続されて前記第3競合学習パルスニューロンモデルが1つも発火していないときに発火するように構成された第3無発火検出パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第3競合学習パルスニューロンモデルの出力端子に接続されて前記第3競合学習パルスニューロンモデルが2つ以上発火しているときに発火するように構成された第3複数発火検出パルスニューロンモデルとを備え、前記各第2競合学習パルスニューロンモデルの出力端子、前記第3無発火検出パルスニューロンモデルの出力端子、及び、前記第3複数発火検出パルスニューロンモデルの出力端子が、それぞれ前記各第3競合学習パルスニューロンモデルの入力端子に接続された第3ニューラルネットワーク、
から構成されて、認識時に前記音源同定用周波数パターン検出部から入力された発火パターンを代表する参照ベクトルを持つ前記第3競合学習パルスニューロンモデルが発火するように構成され、
前記各時間差検出用パルスニューロンモデル、前記各第1競合学習パルスニューロンモデル、前記第1無発火検出パルスニューロンモデル、前記第1複数発火検出パルスニューロンモデル、前記各第2競合学習パルスニューロンモデル、前記第2無発火検出パルスニューロンモデル、前記第2複数発火検出パルスニューロンモデル、前記各第3競合学習パルスニューロンモデル、前記第3無発火検出パルスニューロンモデル、及び、前記第3複数発火検出パルスニューロンモデルは、それぞれ、保持している内部電位値に各入力端子からの入力値と結合重みとの乗算値を加算することにより内部電位値を計算して保持し直す部分と、内部電位値をビットシフトと減算とにより減衰する部分と、内部電位値と閾値とを比較して比較結果に応じて出力パルスを出力する部分とを備えたディジタル回路により構成されている
ことを特徴とする音源定位・同定装置。
発明の詳細な説明 【技術分野】
【0001】
本発明は、音源定位と音源同定とを行う装置(以下、「音源定位・同定装置」と言う)に関し、特に、パルスニューロンモデルを用いた音源定位・同定装置に関する。
【背景技術】
【0002】
音による周辺環境把握の基本機能は、音源方向を識別する音源定位と、音源種類を識別する音源認識(音源同定)であり、ニューラルネットワークを用いた音源認識装置(音源同定装置)には、下記非特許文献1、非特許文献2、特許文献1に記載されたものがある。また、ニューラルネットワークを用いた音源定位装置には、下記非特許文献3、非特許文献4、非特許文献5に記載されたものがある。さらに、音源定位装置の時間差検出機構を音源認識装置の前処理機構として用いるものもとして、下記非特許文献6に記載されたものがある。
【0003】
なお、出願人による音源定位のための時間差検出器についての出願に、下記特許文献2がある。また、関連する文献として下記非特許文献7、8、9がある。

【特許文献1】特許第3164100号公報
【特許文献2】特願2005-362915
【非特許文献1】坂口晋也、「パルスニューロンモデルを用いた音源認識に関する研究」、名古屋工業大学平成9年度卒業論文、1998年3月
【非特許文献2】坂口晋也、黒柳奨、岩田彰、「環境把握のための音源識別システム」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、1999年12月、NC99-70、p.61-68
【非特許文献3】黒柳奨、岩田彰、「パルス伝達型聴覚神経回路モデルによる音源方向知覚-時間差・音圧差の抽出-」、電子情報通信学会技術研究報告、社団法人電子情報通信学会、1993年3月、NC92-149、p.163-170
【非特許文献4】黒柳奨、岩田彰、「パルスニューロンモデルのための教師あり学習則」、電子情報通信学会技術研究報告、社団法人電子情報通信学会、1998年3月、NC97-151、p.95-102
【非特許文献5】黒柳奨、平田浩一、岩田彰、「パルスニューラルネットワークのための競合学習手法」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、2002年3月、NC2001-210、p.113-120
【非特許文献6】中尾裕之、黒柳奨、岩田彰、「パルスニューラルネットワークによる音源の方向情報を用いた音像抽出モデル」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、2001年3月、NC2000-108、p.39-46
【非特許文献7】田中愛久、黒柳奨、岩田彰、「FPGAのためのニューラルネットワークのハードウェア化手法」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、2001年3月、NC2000-179、p.175-182
【非特許文献8】二俣宣義、黒柳奨、岩田彰、「FPGAのためのパルスニューロンモデルの実装方法」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、2002年3月、NC2001-211、p.121-128
【非特許文献9】黒柳奨、岩田彰、「聴覚情報処理システムのためのパルスニューロンモデルを用いた競合学習ニューラルネットワーク」、電子情報通信学会論文誌(D-II)、2004年7月、第J87-D-II巻、第7号、p.1496-1504
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところで、音源定位装置及び音源同定装置を例えば居宅内に設置して、居宅内で発生する様々な音の方向と種類とを識別させたい場合には、音源定位装置及び音源同定装置を1つの装置とすることが望ましいが、音源定位と音源同定の2つの機能を1つの装置に実装することは容易ではないという問題があった。
【0005】
また、コンピュータ上のソフトウェアでこれらの機能を実現しようとすると、膨大な演算をCPUにおいて逐次的に行うこととなるため、実行速度が著しく低下し、実用的な演算速度を実現できないという問題があった。
【0006】
この発明は、上述した問題を解決するものであり、音源定位と音源同定の2つの機能の実装を容易化するとともに、実用的な演算速度を実現可能な音源定位・同定装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の音源定位・同定装置は、左右のマイクロフォンと、左の前記マイクロフォンに接続されて左の前記マイクロフォンから入力された左の入力信号を周波数成分毎に信号強度に応じたパルス頻度を持つパルス列(以下、「左信号」という。)に変換する左の入力信号処理部と、右の前記マイクロフォンに接続されて右の前記マイクロフォンから入力された右の入力信号を周波数成分毎に信号強度に応じたパルス頻度を持つパルス列(以下、「右信号」という。)に変換する右の入力信号処理部と、左右の前記入力信号処理部の両方に接続されて音源の方向を識別する音源定位部と、左右の前記入力信号処理部の少なくとも一方に接続されて音源の種類を識別する音源同定部とを備え、
前記音源定位部は、時間差特徴検出部と、前記時間差特徴検出部に接続された音源定位用抽出結果マッピング部とを備え、
前記音源同定部は、音源同定用周波数パターン検出部と、前記音源同定用周波数パターン検出部に接続された音源同定用検出パターンマッピング部とを備え、
前記時間差特徴検出部は、周波数成分毎に、それぞれ2つの入力端子と1つの出力端子とを有して両方の入力端子から同時に信号が入力されたときのみ発火するように構成された時間差検出用パルスニューロンモデルの列と、左信号用の時間遅れ素子の列と、右信号用の時間遅れ素子の列とを備えて、前記左信号用の時間遅れ素子の列を経由させることにより前記時間差検出用パルスニューロンモデルの列の一方の端から順に左信号を入力するとともに、前記右信号用の時間遅れ素子の列を経由させることにより前記時間差検出用パルスニューロンモデルの列の他方の端から順に右信号を入力することにより、入力信号間の時間差によって変化する特異パターンを出力するように構成され、
前記音源定位用抽出結果マッピング部は、
それぞれ複数の入力端子と1つの出力端子とを有する複数の第1競合学習パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第1競合学習パルスニューロンモデルの出力端子に接続されて前記第1競合学習パルスニューロンモデルが1つも発火していないときに発火するように構成された第1無発火検出パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第1競合学習パルスニューロンモデルの出力端子に接続されて前記第1競合学習パルスニューロンモデルが2つ以上発火しているときに発火するように構成された第1複数発火検出パルスニューロンモデルとを備え、前記各時間差検出用パルスニューロンモデルの出力端子、前記第1無発火検出パルスニューロンモデルの出力端子、及び、前記第1複数発火検出パルスニューロンモデルの出力端子が、前記各第1競合学習パルスニューロンモデルの入力端子に接続された第1ニューラルネットワーク、
から構成されて、認識時に前記時間差特徴検出部から入力された特異パターンを代表する参照ベクトルを持つ前記第1競合学習パルスニューロンモデルが発火するように構成され、
前記音源同定用周波数パターン検出部は、
それぞれ複数の入力端子と1つの出力端子とを有する複数の第2競合学習パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第2競合学習パルスニューロンモデルの出力端子に接続されて前記第2競合学習パルスニューロンモデルが1つも発火していないときに発火するように構成された第2無発火検出パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第2競合学習パルスニューロンモデルの出力端子に接続されて前記第2競合学習パルスニューロンモデルが2つ以上発火しているときに発火するように構成された第2複数発火検出パルスニューロンモデルとを備え、前記音源同定部に接続されている前記入力信号処理部の周波数成分毎の出力端子、前記第2無発火検出パルスニューロンモデルの出力端子、及び、前記第2複数発火検出パルスニューロンモデルの出力端子が、それぞれ前記各第2競合学習パルスニューロンモデルの入力端子に接続された第2ニューラルネットワーク、
から構成されて、認識時に前記入力信号処理部から入力された入力信号に存在する周波数パターンを代表する参照ベクトルを持つ前記第2競合学習パルスニューロンモデルが発火するように構成され、
前記音源同定用検出パターンマッピング部は、
それぞれ複数の入力端子と1つの出力端子とを有する複数の第3競合学習パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第3競合学習パルスニューロンモデルの出力端子に接続されて前記第3競合学習パルスニューロンモデルが1つも発火していないときに発火するように構成された第3無発火検出パルスニューロンモデルと、複数の入力端子と1つの出力端子とを有し各入力端子が前記第3競合学習パルスニューロンモデルの出力端子に接続されて前記第3競合学習パルスニューロンモデルが2つ以上発火しているときに発火するように構成された第3複数発火検出パルスニューロンモデルとを備え、前記各第2競合学習パルスニューロンモデルの出力端子、前記第3無発火検出パルスニューロンモデルの出力端子、及び、前記第3複数発火検出パルスニューロンモデルの出力端子が、それぞれ前記各第3競合学習パルスニューロンモデルの入力端子に接続された第3ニューラルネットワーク、
から構成されて、認識時に前記音源同定用周波数パターン検出部から入力された発火パターンを代表する参照ベクトルを持つ前記第3競合学習パルスニューロンモデルが発火するように構成され、
前記各時間差検出用パルスニューロンモデル、前記各第1競合学習パルスニューロンモデル、前記第1無発火検出パルスニューロンモデル、前記第1複数発火検出パルスニューロンモデル、前記各第2競合学習パルスニューロンモデル、前記第2無発火検出パルスニューロンモデル、前記第2複数発火検出パルスニューロンモデル、前記各第3競合学習パルスニューロンモデル、前記第3無発火検出パルスニューロンモデル、及び、前記第3複数発火検出パルスニューロンモデルは、それぞれ、保持している内部電位値に各入力端子からの入力値と結合重みとの乗算値を加算することにより内部電位値を計算して保持し直す部分と、内部電位値をビットシフトと減算とにより減衰する部分と、内部電位値と閾値とを比較して比較結果に応じて出力パルスを出力する部分とを備えたディジタル回路により構成されていることを特徴とする。
【発明の効果】
【0008】
本発明の音源定位・同定装置は、音源定位部と音源同定部とが、いずれも、複数のパルスニューロンモデルを備えたニューラルネットワークにより構成されており、しかも、各パルスニューロンモデルはディジタル回路により構成されているので、パルスニューロンモデルという共通の要素を大量にFPGA等のデバイス上に実装することで実現でき、音源定位と音源同定の2つの機能の実装が容易である。そして、パルスニューロンモデルにおける演算がディジタル回路上で並列的に実行されることとなるため、実用的な演算速度を実現可能である。
【発明を実施するための最良の形態】
【0009】
以下、本発明の一実施形態について図面に基づいて説明する。
【0010】
音源定位・同定装置1は、図1に示すように、左右のマイクロフォン2、3と、マクロフォン2、3が接続された本体部4とを備える。本体部4は、表示部5を備える。
【0011】
本体部4は、図2及び図3に示すように、マイクロフォン2、3にそれぞれ接続された左右の入力信号処理部6、7と、入力信号処理部6、7の両方に接続された音源定位部8と、入力信号処理部7に接続された音源同定部9とを備える。なお、音源同定部9は、入力信号処理部6、7の少なくとも一方に接続されていればよい。音源定位部8は、時間差特徴検出部10と定位用CONPアルゴリズム部11とを備える。音源同定部9は、前段の同定用CONPアルゴリズム部12と後段の同定用CONPアルゴリズム部13とを備える。なお、音源定位・同定装置1は、学習を行ってから音源の認識を行い、学習時と認識時とで動作が異なる部分があるため、図2で学習時を、図3で認識時を示している。
【0012】
入力信号処理部6、7、時間差特徴検出部10、定位用CONPアルゴリズム部11、同定用CONPアルゴリズム部12、及び、同定用CONPアルゴリズム部13は、いずれも、複数のパルスニューロンモデル(以下、「PNモデル」と言う。)により構成されたニューラルネットワークからなる。PNモデルとは、入出力信号としてパルス列を用いるニューロンモデルを言う。音源定位・同定装置1では、各PNモデルはディジタル回路で構成される。
【0013】
図4に、PNモデルの模式図を示す。このPNモデルでは、n番目の入力チャンネルからパルスin(t)=1が到着すると、n番目のシナプス部の局所膜電位pn(t)が結合重みwn分上昇し、その後時定数τで静止電位まで減衰する。PNモデルの内部電位I(t)は、その時刻の各局所膜電位の総和として表される。PNモデルは、この内部電位が閾値θ以上となった時発火(すなわち、出力パルス「1」を発生)する。但し、神経細胞には発火に関する不応期RPが存在するため、このPNモデルにおいても、ある発火からRPの間は内部電位が閾値を超えた場合でも発火しない。以下、PNモデルを単にニューロンとも言う。
【0014】
音源定位・同定装置1では、かかるPNモデルをディジタル回路で構成しFPGA(Field Programmable Gate Array)に実装している。図5に、FPGAにおけるPNモデルの実装例を示す。この実装例については、上記非特許文献8等に記載されているので、詳しい説明は省略する。この実装例によれば、減衰処理の機構に乗算器を用いないため、ディジタル回路上で実現するのに適している。
【0015】
入力信号処理部6、7は、図6に示すように、入力信号をバンドパスフィルタ(BPF)により周波数成分毎の信号に分解する蝸牛モデルと、非線形変換を行うことにより蝸牛モデルからの入力信号の正の成分だけを取り出すとともに信号強度の対数圧縮を行う有毛細胞モデルと、有毛細胞モデルからの入力信号を信号強度に比例したパルス頻度を持つパルス列に変換する蝸牛神経モデルとから構成される。すなわち、入力信号処理部6、7は、左右の入力信号の各々を、周波数成分毎に、信号強度に応じたパルス頻度を持つパルス列に変換する。
【0016】
時間差特徴量抽出部10は、図7に示すような抽出モデルを周波数成分毎に備えている。この抽出モデルについても、上記非特許文献5等に記載されているので、詳しい説明は省略する。この抽出モデルは、PNモデルの列を備え、時間遅れ素子を用いて、PNモデルの列の一方の端から順に左信号(左の入力信号から生成されたパルス列)を入力するとともに、列の他方の端から右信号(右の入力信号から生成されたパルス列)を入力する。各PNモデルは、左右の信号が同時に入力されたときのみ発火するように構成されている。これにより、時間差抽出部10は、入力信号間の時間差によって変化する特異パターンを出力する。
【0017】
定位用CONPアルゴリズム部11、同定用CONPアルゴリズム部12、及び、同定用CONPアルゴリズム部13は、いずれも、上記非特許文献9に記載された競合学習ニューラルネットワーク(以下、「CONP」と言う。)を用いている。
【0018】
CONPは、聴覚情報処理システムにおける多次元ベクトルの次元圧縮及び代表ベクトルを用いたパターン変動の吸収を目的とする、PNモデルのみを用いたベクトル量子化ネットワークであり、Kohonenの競合学習モデルならびに自己組織化マップ(Self-Organizing Maps 以下、「SOM」と言う。)をパルスニューラルネットワークに適用したものである。
【0019】
従来のSOMを用いた競合学習及び認識処理の動作フローを、図8に示す。この図は、M個のニューロンを有するパルスニューラルネットワークの各ニューロンに、n個のチャンネルを介して、入力パルスを各要素とする入力ベクトル(n次元データベクトル)xiが入力された場合の動作フローである。このニューラルネットワークは、入力ベクトルxiが入力されると(S01)、各ニューロンの評価値1/|wj-xi|を演算する(S02)。なお、wjはニューロンの参照ベクトル(結合重みを各要素とするベクトル)である。ニューロンの評価値は、参照ベクトルwjと入力ベクトルxiとのユークリッド距離が近い程高くなる。次に、ニューロンのうち評価値が最大となるもの(以下、「勝者ニューロン」とも言う。)を検索し(S03)、学習フェイズであれば、勝者ニューロンの参照ベクトルwjが入力ベクトルxiに近づくように結合重みを更新するとともに(S04)、勝者ニューロンの近傍のニューロンについても同様に結合重みを更新する(S05)。そして、評価値が最大のニューロンのラベルjを出力する(S06)。なお、既に学習を終えて実際に認識を行う場合、すなわち、学習フェイズでない場合は、結合重みの更新は行わない。そして、結合重みの更新(参照ベクトルの更新)のための係数を更新して、次の入力ベクトルについて、ステップS01~S06の処理を行う(S07)。
【0020】
SOMアルゴリズムでは、参照ベクトルが入力ベクトルに最も近いニューロンを勝者ニューロンとし、勝者ニューロンの参照ベクトルを入力ベクトルに近づけるのみならず、勝者ニューロンの周辺のニューロンについても参照ベクトルを入力ベクトルに近づける。これにより、SOMでは、入力ベクトル群の位相関係を保持したベクトル量子化が可能となる。
【0021】
図9-1~9-3を用いて、SOMアルゴリズムについて説明する。これらの図では、薄い灰色の部分が入力空間を表し、数字が入った丸印が参照ベクトルを表す。図9-1に示すように、SOMアルゴリズムの目的は入力空間を量子化することであり、その方法としては参照ベクトルによって各部分空間の中心を表現することである。このため、図9-2に示すように、SOMアルゴリズムでは、学習時には、勝者ニューロンのみならずその周辺のニューロンについても参照ベクトルを更新することにより、参照ベクトルがその類似関係(位相関係)を保持したまま各部分空間に移動していくこととなり、学習後には、参照ベクトルが入力空間の類似度の順番に並ぶこととなる。すなわち、学習の結果、従来の競合学習では、図9-3の左図に示すように、入力ベクトルの類似関係とは無関係にベクトル量子化が行われていたが、SOMアルゴリズムでは、図9-3の右図に示すように、入力ベクトルの類似関係を保持したベクトル量子化が行われることとなる。すなわち、互いに近い入力ベクトルは、互いに近い参照ベクトルで代表され、互いに遠い入力ベクトルは、互いに遠い参照ベクトルで代表されることになる。
【0022】
CONPでは、かかるSOMアルゴリズムにより学習を行う。但し、CONPでは、入力ベクトルに近いか否かを、ユークリッド距離ではなく、入力ベクトルと参照ベクトルの内積EV=cosθ|w||x|(w:参照ベクトル、x:入力ベクトル、θ:両ベクトルのなす角)で評価し、この評価値の最も高かったニューロンを勝者ニューロンとしている。内部電位は局所膜電位の総和であり、局所膜電位の大きさは結合重みに比例し、かつ入力パルスの頻度に比例するため、入力ベクトルと参照ベクトルの内積による評価は、内部電位による評価と等価である。
【0023】
また、CONPでは、評価値が最も高かったニューロンを検索するために、最も高い評価値を持ったニューロンだけが発火するように構成している。詳しくは、図10に示すように、外部に複数個の状態検出ニューロン、すなわち、競合学習ニューロンが1つも発火していないときに発火する無発火検出ニューロン(以下、「NFDニューロン」と言う。)と、競合学習ニューロンが2つ以上発火しているときに発火する複数発火検出ニューロン(以下、「MFDニューロン」と言う。)の2つの状態検出ニューロンを設け、それらの状態検出ニューロンの発火状況に応じて競合学習ニューロンの閾値を一律に変化させることで、唯一つの競合学習ニューロンが発火する状況を保持している。なお、NFDニューロン、MFDニューロン等との区別のために必要なときは、競合学習を行うニューロンを競合学習ニューロン(Competitive Learning Neuron)と言う。
【0024】
図11-1、11-2に、CONPの動作フローを示す。CONPでは、n個のデータパルスからなる入力ベクトルx(t)=(x1(t),x2(t),…,xi(t),…,xn(t))が、単位時間毎に入力される(S101)。なお、tは時刻である。すると、CONPでは、NFDニューロンの出力値ynfd(t)を演算するとともに、MFDニューロンの出力値ymfd(t)を演算する(S102、S103)。次に、CONPの有するM個の競合学習ニューロンの内部電位Ij(t) (j=1,…,M)を演算し(S104)、内部電位Ij(t)が閾値THを超えたニューロンについては、y(t)=1を出力し、それ以外のニューロンについては、y(t)=0を出力する(S105)。そして、「1」を出力したニューロンについて結合重みを更新するとともに(S106)、そのニューロンの近傍のニューロンについても結合重みを更新し(S107)、参照ベクトルをノルム1に正規化する(S108)。なお、学習フェイズでない場合は、結合重みの更新は行わない。そして、結合重みの更新のための係数を更新して、次の入力ベクトルについて、ステップS101~108の処理を行う(S109)。
【0025】
CONPにおける演算方法について説明する。まず、CONPにおけるPNモデルの動作を明確にするために、下記(数1)、(数2)により以下のように定義する。
【0026】
システムをサンプリング周波数Fsの離散時間系とし、△t=1/Fsとする(△:デルタ)。ここで、引数として、時刻t、減衰時定数τ、結合重みw、時刻tにおける入力信号x(t)の4つを持つ関数Fを導入し、下記(数1)のように定義する。
【0027】
【数1】
JP0004982743B2_000002t.gif
すると、時刻tにおけるPNモデルの内部電位I(t)は、局所膜電位pi(t)の総和として、下記(数2)のように記述できる。
【0028】
【数2】
JP0004982743B2_000003t.gif
ここで、τはpi(t)の減衰時定数である。PNモデルの不応期をRP、時刻tにおける前回発火からの経過時間をET(t)とし、ET(0)>RPとすると、PNモデルの出力値y(t)は、以下のアルゴリズムにより計算される。
【0029】
if I(t)≧TH and ET(t)>RP
then y(t)=1,ET(t)=0
else y(t)=0,ET(t)=ET(t-△t)+△t
パラメータτ、w1、w2、…、wn、THは、各PNモデルにより可変の値であり、この組合せにより各PNモデルの動作は決定される。
【0030】
CONPでは、各ニューロンにおける入力ベクトルの類似度の評価値としてニューロンの内部電位I(t)を用いる。なお、上述したように、入力ベクトルと参照ベクトルの内積による評価と、内部電位による評価とは、同等である。そして、上述したように、状態検出ニューロンを用いて、最も評価値の高いニューロンのみが発火するように構成する。このように、CONPではネットワークにおいて発火した競合学習ニューロンを勝者ニューロンとするため、各ニューロンが発火した場合に学習を行う。学習すべき入力パターンの表現法としては、結合重みを1に固定したシナプスにおける局所膜電位pcwi(t)を用いる。学習に必要な要素を加えた競合学習用パルスニューロンモデルにおいて、入力パルス列数をn、時刻tにおけるNFDニューロン、MFDニューロンの出力をそれぞれynfd(t)、ymfd(t)、競合学習ニューロンのNFDニューロン、MFDニューロンに対する結合重みをそれぞれwfd、-wfd(但し、wfd>0)とすると、時刻tにおける、M個ある競合学習ニューロンのh番目の競合学習ニューロンの内部電位Ih(t)は前述の関数Fを用いて下記(数3)のように記述できる。なお、上述したように、CONPは、非特許文献9に記載された競合学習ニューラルネットワークであり、ここで説明する競合学習用パルスニューロンモデルについても非特許文献9に記載されている(同文献の図3等参照)。

【0031】
【数3】
JP0004982743B2_000004t.gif
なお、CONPにおいてはpnfd、pmfdを発火閾値の動的変化量として扱うことで制御を行うため、減衰時定数τfdは時定数τに対して充分大きいものと仮定する。時刻uにおける勝者ニューロンの結合重みwwin,i(u)の更新は、学習係数をαとしたとき下記(数4)で表すことができる。
【0032】
【数4】
JP0004982743B2_000005t.gif
各更新の後,結合重みベクトルw(u)=(wwin,1(u),…,wwin,n(u))はノルムが1となるよう正規化される。
【0033】
入力パルス列によって発生する内部電位の総量が大きく変動する場合,この変動量を吸収するために閾値の変化が生じることになり、閾値の変化が入力ベクトルの方向変化に追従できない場合がある。そこで、CONPでは内部電位I(t)に対して、pcwiの総和を一定の比率βpcw(但し、0≦βpcw≦1)であらかじめ差引くことで、入力信号のノルム変動に対する内部電位の変化を抑制している。これにより上記(数3)のIh(t)は下記(数5)のように修正される。
【0034】
【数5】
JP0004982743B2_000006t.gif
以上のアルゴリズムによりパルスニューラルネットワークにおいてKohonenの競合学習を実現することが可能であり、これにより入力信号に含まれるスペクトルパターンなどが時々刻々と変化する場合でも、これを統計的に学習、ベクトル量子化することが可能である。なお、これまで述べて来た結合重みの更新を勝者ニューロンの近傍のニューロンに対しても適用することにより、SOMアルゴリズムは容易に実現可能である。
【0035】
定位用CONPアルゴリズム部11は、学習時には、時間差特徴量抽出部10が抽出した抽出結果である特異パターンを、類似度の順にベクトル量子化する。すなわち、特異パターンをその類似関係を保持して代表できるような参照ベクトル群を作り上げる。この結果、定位用CONPアルゴリズム部11では、特異パターンの類似関係を保持した参照ベクトルへのマッピングが行われるようになる。
【0036】
そして、図3に示すように、認識時には、定位用CONPアルゴリズム部11は、特異パターンの参照ベクトルへのマッピングを行い、定位結果として、特異パターンを代表する参照ベクトルを持つニューロンからの発火信号を出力する。
【0037】
同定用CONPアルゴリズム部12は、入力信号処理部7から入力された入力信号に存在する周波数パターンを検出するものであり、入力信号に存在する周波数パターンをベクトル量子化する。
【0038】
同定用CONPアルゴリズム部13は、学習時には、LVQ(Learning Vector Quantization)による教師有り学習を行う。LVQによる教師有り学習とは、第1フェイズで、SOMアルゴリズムによる学習を行い、第2フェイズでその結果にラベル付けを行うものである。教師信号としては、入力信号の音種類情報を用いる。この学習により、同定用CONPアルゴリズム部13は、同定用CONPアルゴリズム部12によってベクトル量子化されたパターンを、さらに音源種類毎にベクトル量子化して、音源種類を示すラベル付けを行えるようになる。
【0039】
そして、同定用CONPアルゴリズム部13は、認識時には、同定用CONPアルゴリズム部12によって検出された(ベクトル量子化された)パターンを、さらに音源種類毎にベクトル量子化し、その結果に応じたラベルを同定結果として出力する。
【0040】
例えば、救急車の音には、それぞれ「ピー」「ポー」のように聞こえる2つの周波数パターンが存在するが、この2つの周波数パターンを別々にベクトル量子化するのが、同定用CONPアルゴリズム部12であり、これらベクトル量子化された2つのパターンをまとめてベクトル量子化して「救急車」を示すラベルを出力するのが、同定用CONPアルゴリズム部13である。
【0041】
以上のように構成することにより、音がマイクロフォン2、3を介して入力されたときに、その音源の定位と同定とを略同時に行える音源定位・同定装置1が実現できる。音源定位・同定装置1は、表示部5に定位結果と同定結果とを表示する。
【0042】
なお、音源定位・同定装置1に通信部を設け、その通信部を介して、定位結果と同定結果とを例えば利用者が携帯する報知装置に送信し、その報知装置において表示等により定位結果と同定結果とを利用者に知らせることとしてもよい。
【0043】
音源定位部8及び音源同定部9のFPGAへの実装例を、以下の(1)~(7)に示す。
【0044】
(1)実装デバイスは、Altera社製FPGAデバイスStratixII EP2S60、実装回路最低動作周波数は、64kHzとする。
【0045】
(2)外部インターフェイスは、USB2.0とし、入力ビット数16bit、出力ビット数13bitとする。
【0046】
(3)入力周波数チャンネル数は、音源定位用15チャンネル、音源同定用43チャンネルとする。
【0047】
(4)時間差特徴量抽出部10は、周波数チャンネル数15、1チャンネル当りのニューロン数21とする。
【0048】
(5)定位用CONPアルゴリズム部(以下、「音源定位用抽出結果マッピング部」とも言う。)11は、各競合学習ニューロンの入力チャンネル数317(状態検出ニューロンからの2入力含む)、競合学習ニューロン数7とする。
【0049】
(6)同定用CONPアルゴリズム部(以下、「音源同定用周波数パターン検出部」とも言う。)12は、各競合学習ニューロンの入力チャンネル数45(状態検出ニューロンからの2入力含む)、競合学習ニューロン数10とする。
【0050】
(7)同定用CONPアルゴリズム部(以下、「音源同定用検出パターンマッピング部」とも言う。)13は、各競合学習ニューロンの入力チャンネル数12(状態検出ニューロンからの2入力含む)、競合学習ニューロン数6とする。
【0051】
このように構成すれば、必要回路数(単位:ALUT)は、表1のようになる。
【0052】
【表1】
JP0004982743B2_000007t.gif
なお、外部インターフェイス部とは、入力信号部6、7からの信号を時間差特徴量抽出部10及び同定用CONPアルゴリズム部12に入力するためのインターフェイスとなる部分である。
【0053】
表1のように、この実装例における必要回路数の総計は35,144(ALUTs)であり、一方、上記デバイスEP2S60の実装可能回路数は48,352(ALUTs)であることから、音源定位部8及び音源同定部9の全回路をFPGA上に搭載可能であることが分かる。
【0054】
音源定位・同定装置1は、音源定位部8と音源同定部9とが、いずれも、複数のパルスニューロンモデルからなるニューラルネットワークにより構成されており、しかも、各パルスニューロンモデルはディジタル回路により構成されている。すなわち、音源定位部8と音源同定部9とは、パルスニューロンモデルという共通の要素を例えばFPGA等のデバイス上に大量に実装することで実現できる。このため、音源定位と音源同定の2つの機能を1つの装置に実装することが容易である。そして、パルスニューロンモデルにおける演算が、ディジタル回路上で並列的に実行されることとなるため、実用的な演算速度を実現可能である。
【図面の簡単な説明】
【0055】
【図1】本発明の一実施形態に係る音源定位・同定装置の斜視図である。
【図2】本発明の一実施形態に係る音源定位・同定装置のブロック図であり、学習時を示す。
【図3】本発明の一実施形態に係る音源定位・同定装置のブロック図であり、認識時を示す。
【図4】PNモデルの模式図である。
【図5】FPGAにおけるPNモデルの実装例を示すブロック図である。
【図6】入力信号処理部の構成を示すブロック図である。
【図7】時間差特徴量抽出部の抽出モデルの模式図である。
【図8】従来のSOMアルゴリズムを示すフローチャートである。
【図9-1】SOMアルゴリズムを説明するための図である。
【図9-2】SOMアルゴリズムを説明するための図である。
【図9-3】SOMアルゴリズムを説明するための図である。
【図10】CONPの模式図である。
【図11-1】CONPにおける処理の流れを示すフローチャートである。
【図11-2】CONPにおける処理の流れを示すフローチャートである。
【符号の説明】
【0056】
1…音源定位・同定装置
8…音源定位部
9…音源同定部
図面
【図1】
0
【図2】
1
【図3】
2
【図4】
3
【図5】
4
【図6】
5
【図7】
6
【図8】
7
【図10】
8
【図11-1】
9
【図11-2】
10
【図9-1】
11
【図9-2】
12
【図9-3】
13