TOP > 国内特許検索 > 空間-時間パターンを同時に学習し認識するためのシステム

空間-時間パターンを同時に学習し認識するためのシステム コモンズ

国内特許コード P140010568
整理番号 06-71
掲載日 2014年5月27日
出願番号 特願2007-018135
公開番号 特開2008-186171
登録番号 特許第5065693号
出願日 平成19年1月29日(2007.1.29)
公開日 平成20年8月14日(2008.8.14)
登録日 平成24年8月17日(2012.8.17)
発明者
  • コンスタンティン・マルコフ
  • 中村 哲
出願人
  • 国立研究開発法人情報通信研究機構
発明の名称 空間-時間パターンを同時に学習し認識するためのシステム コモンズ
発明の概要 【課題】測定値又は観測値の所与の空間的-時間的パターンを実時間で、かつ教師無しで適応学習及し認識する能力を有するシステムを提供する。
【解決手段】システムは、ダイナミック隠れマルコフモデルネットワーク(DHMネット)モデルを表すデータの集合を記憶するモデル記憶部と、現在の状態の変数sCURRと、入力特徴ベクトルXに最も良く整合し、特徴量空間において新たな特徴ベクトルからの距離がしきい値より小さい状態が存在すればこれを次の状態と判断し(378-386)、存在しない場合はネットワークに新たな状態を付加する(388-390)ユニットとを含む。新たな状態は新たな特徴ベクトルXと、現在の状態sCURRとによって定義され、状態sCURRとsNEXTとの間で次の遷移が定義される(392)。
【選択図】 図7
従来技術、競合技術の概要



<はじめに>

現在の自動音声認識システムは、2つの別々の動作モードを有する。トレーニングと、認識とである。トレーニングの後、システムのパラメータは固定され、トレーニング条件とテスト条件との間にミスマッチが生じると、通常は適応手順が行なわれる。





生物学的及び技術的観点から見れば、ライフスパンを学習段階と認識段階とに人為的に分離することは現在の自動音声認識(Automatic Speech Recognition:ASR)システムの欠点である。こうした方法は、整合した環境で動作するシステムでは可能であるが、環境が変わればうまくいかない。費用のかかる再トレーニングを避けるため、最近の研究では高速適応化とオンライン適応学習とに焦点をあてている。





しかし、このような方法は必然的に、それまでよく学習してきたパターンを破壊してしまう。これは、認知科学において壊滅的忘却(catastrophic forgetting)として知られる現象である。インテリジェントなシステムであれば、変化する環境に適応するのみならず、その知識を保存することもできなければならない。これは、壊滅的忘却なしの、生涯にわたる、すなわち終わりのない学習能力を示唆する。もちろん、段階的な干渉(知識の消去)は不可避であり、望ましくさえある。これがなければ、このようなシステムは遅かれ早かれそのメモリ資源を使い果たしてしまうからである。現実の応用では、環境を制御できることは稀であり、またその特徴について前もって知識を得ることも稀である。このため、システムには新たな要求が生じることになる。すなわち、このシステムは教師無しの適応学習が可能でなければならない、ということであり、これはニューラルネットワークの文献では自己組織化と称されている。





現在のASRシステムの主たる目標は、所与の音声信号について最も確率の高い単語シーケンスを見出すことである。言い換えれば、興味があるのはその信号が持つ語彙的な情報のみであり、話者が誰であるか(identity:ID)、話し方のスタイル、感情的な状態等の存在する他の情報は、信号特性に望ましくない変動を生じる「ノイズ」であると考えられる。これは、このような変動に対し頑健なシステムを要求する。信号の可変性が非静止環境、通信チャンネル、付加的ノイズ等によってももたらされる場合、この課題は特に困難となる。





ASRシステムの頑健性を改善するために、多くの方法とアルゴリズムとが提案されてきた。しかしながら、依然として、可能な状況の全てにおいて一貫してうまく働くような、この問題に対する効果的な解決策はない。





人間との自然なコミュニケーションが可能な機械を構築するにあたっては、発話の語彙的内容のみでなく、話者(ID、アクセント、感情)及び環境(オフィス、街路等)の情報も重要となる。現在は、このような情報を得るために、通常は単一のファクタのみ、例えば話者のID又は発話された言語のみを認識又は特定可能な、別個のシステムが用いられる。この場合、言語学的内容から来る変動性は「不所望」であり、これに対処しなければならない。このような方法は、実務的な観点からはきわめて非効率である。





別の選択肢は、音声信号の変動性を正規化又は減少させる代わりに、これを学習して、語彙的情報だけでなく、興味のある他の何らかの情報とともに、同時に出力するようなシステムを設計することである。このようなシステムは、教師無しのやり方で連続して学習を行なうことができなければならない。変動性の元となるものすべてについて、前以って知識を得ることは不可能だからである。このこともまた、自己組織化する終わりのない学習システムを持つ、という思想につながる。





人間と機械との学習能力のギャップを埋めるために、多くの研究者が、このようなシステムを設計するための思想の源として人間の能力の研究に目を向けてきた。日常の経験から、人間は生涯を通じて学習が可能であり、新たな知識を獲得しても、先に学習したことの記憶が流し去られるわけではない、ということができる。





人間の脳がどのように働いているかについては、多くが依然としてよく分かっていないが、ニューロンレベルの学習には、ヘッブ則等のいくつかの基本的な原則が定式化されている。ヘッブ則は、シナプス前後のニューロンにおいて同時に発生する活動が、これらのニューロン間の接続を強化するにあたって決定的に重要である、という仮説である。脳の研究によって、神経系はトポロジー的な構造を有することが示された。類似の刺激は脳の中でトポロジー的に近い区域を活性化させるのである。この観察が、いくつかのニューラルネットワークアーキテクチャの開発につながった。





終わりのない、又は生涯にわたる学習の原理は、いわゆる安定性-柔軟性のジレンマを生み出す。システムは如何にして、それまでに学習した知識を保存しながら、新たな事物の学習を続けることができるか、という問題である。この問題については、ニューラルネットワークの研究分野において、以下を含むいくつかの解決策が提案されている。すなわち、適応共振理論(Adaptive Resonance Theory:ART)[非特許文献1]、生涯学習セル構造(Life-long Learning Cell Structures)[非特許文献2]、及び自己組織化漸次的ニューラルネットワーク(Self-Organizing Incremental Neural Network)[非特許文献3]である。通常は、新たな知識を受容するために新たなノードを追加することによって保証され、一方で接続の重みによって学習率を減じることによって、必要とされるネットワークの安定性を提供する。





空間-時間パターンの学習と認識とを同時に行ない、これらを思い出すことのできるシステムが、非特許文献4で提案されている。このシステムは自己組織化マップ(Self-Organizing map:SOM)と、同様の有限長さの入力パターンのみをとるARTネットワークとの組合せである。加えて、入力空間におけるシステムの動作範囲を決定する最初のSOM層を学習するために、オフラインの前処理ステップが必要とされる。





いわゆるガイド付伝播ネットワーク(Guided Propagation Networks:GPNs)に基づく、終わりのない学習システムが、非特許文献5に示されている。音声及び自然言語処理を含む、このシステムの様々な考え得る応用が提示されている。

【非特許文献1】

.カーペンター及びS.グロスバーグ、「自己組織化ニューラルネットワークによる適応パターン認識のART」、コンピュータ、77-88ページ、1988年3月。(G. Carpenter and S. Grossberg, "The ART of adaptive pattern recognition by a self-organizing neural network," Computer, pp. 77-88, Mar. 1988.)

【非特許文献2】

.ハムカー、「生涯学習セル構造-壊滅的干渉無しの連続した学習」、ニューラルネットワークス、第14巻、551-573ページ、2001年。(F. Hamker, "Life-long learning Cell Structures -continuously learning without catastrophic interference," Neural Networks, vol. 14, pp. 551-573, 2001.)

【非特許文献3】

.フラオ及びO.ハセガワ、「オンラインの教師無し分類及びトポロジー学習のための漸次的ネットワーク、ニューラルネットワークス、第19巻、90-106ページ、2006年。(S. Furao and O. Hasegawa, "An incremental network for on-line unsupervised classification and topology learning," Neural Networks, vol. 19, pp. 90-106, 2006.)

【非特許文献4】

.スリニバサ及びN.アージャ、「空間時間パターン学習、認識及び想起のためのトポロジー的時間的相関器ネットワーク、IEEEトランザクション、ニューラルネットワーク、第10巻、第2号、356-371ページ、1999年3月。(N. Srinivasa and N. Ahuja, "A topological and temporal correlator network for spatiotemporal pattern learning, recognition and recall," IEEE Trans. Neural Networks, vol. 10, no. 2, pp. 356-371, Mar. 1999.)

【非特許文献5】

.ベロー、「時間的符号化に依拠した一致検出アーキテクチャの例」、IEEEトランザクション、ニューラルネットワークス、第15巻、第5号、963-979ページ、2004年9月。(D. Beroule, "An instance of coincidence detection architecture relying on temporal coding," IEEE Trans. Neural Networks, vol. 15, no. 5, pp. 963-979, Sept. 2004.)

【非特許文献6】

.マルチネス及びK.シュルテン、「トポロジー表現ネットワーク」ニューラルネットワークス、第7巻、第3号、507-522ページ、1994年。(T. Martinetz and K. Schulten, "Topology representing networks," Neural Networks, vol. 7, no. 3, pp. 507-522, 1994.)

産業上の利用分野



この発明はパターン認識システムに関し、特に、測定値又は観察値の空間-時間パターンを同時に学習し認識するための、教師無しの適応学習能力を有するパターン認識装置に関する。

特許請求の範囲 【請求項1】
ネットワークモデルを用いて物理的測定値から導出された特徴ベクトルのシーケンスの空間-時間パターンを同時に学習し認識するためのシステムであって、
前記特徴ベクトルは予め定められた特徴量空間内で定義されており、
前記ネットワークモデルは、前記特徴量空間に定義される一組の状態と、前記状態間の遷移と、前記状態間の横方向接続とを含み、
前記状態の各々は、出力値の確率密度関数を規定し、前記遷移の各々は、状態から状態への遷移を規定するとともに前記遷移の発生頻度と関連付けられており、前記横方向接続の各々は、隣接する状態の対を規定するとともに、前記横方向接続によって接続された状態のいずれかが前記システムによって最後に経由されてからの経過時間の測定値と関連付けられており、
前記システムは、
前記ネットワークモデルを表すデータセットを記憶するためのモデル記憶手段と、
現在の状態の識別子を記憶するための現在状態記憶手段と、
新たな特徴ベクトルに応答して、新たな特徴ベクトルに最も良く整合する状態であって、かつ前記特徴量空間において前記新たな特徴ベクトルからあるしきい値距離内にある状態が存在する場合は、それを次の状態と決定し、存在しない場合は前記ネットワークに新たな状態を追加するための決定手段とを含み、前記新たな状態は、前記新たな特徴ベクトルと現在の状態の識別子によって特定される現在の状態とによって規定され、かつ前記新たな状態は、前記現在の状態からの次の遷移を規定し、
前記システムはさらに、
前記次の状態が決定されたことに応答して、前記モデル記憶手段に記憶された前記モデルにおける次の遷移の頻度を更新するための手段と、
前記次の状態が決定されたことに応答して、前記次の状態と、それに隣接する状態との前記確率密度関数の各々を、予め定められた更新関数によって更新するための手段と、
前記次の状態が決定されたことに応答して、前記次の状態と、その隣接する状態との接続に関連付けられた経過時間の測定値が予め定められた初期値にリフレッシュされ、かつ他の接続に関連付けられた経過時間の測定値が増分されるように、前記ネットワークモデル内の横方向接続を更新するための手段と、
前記横方向接続が更新されたことに応答して、予め定められたしきい値より大きい経過時間の測定値と関連付けられている接続を削除するための手段と、
前記接続のいずれかが削除されたことに応答して、何の接続も有していない状態を前記ネットワークモデルから除去するための手段と、
前記現在の状態の識別子を出力状態シーケンスの末尾に追加するための手段と、
前記現在状態記憶手段に記憶された前記現在の状態の識別子を、前記次の状態の識別子で置換するための手段とを含む、システム。

【請求項2】
前記決定手段は、
前記現在の状態からの遷移を有する状態の組にあって、かつ前記新たな特徴ベクトルから前記しきい値距離内にある、前記新たな特徴ベクトルに最も近い、次の状態の候補を発見するための第1の発見手段と、
前記第1の発見手段が次の状態の候補を発見できなかったことに応答して、前記現在の状態からの遷移を持たず、前記新たな特徴ベクトルから前記しきい値距離内にある、前記新たな特徴ベクトルに最も近い、次の状態の候補を発見するとともに、前記ネットワークモデルを、前記現在の状態から前記次の状態の候補への新たな遷移が生成されるように更新するための、第2の発見手段と、
前記第1又は第2の発見手段によって次の状態の候補が発見されたことに応答して、前記次の状態の識別子を前記次の状態の候補の識別子に設定するための手段と、
前記第1又は第2の発見手段によって次の状態の候補が発見されなかったことに応答して、前記ネットワークモデルに新たな状態を追加するための手段とを含み、前記新たな状態は前記新たな特徴ベクトルによって規定される確率密度関数と前記現在の状態からの遷移とを有し、前記新たな状態の前記遷移は初期頻度の値と関連付けられている、請求項1に記載のシステム。

【請求項3】
前記横方向接続を更新するための手段は
前記次の状態と、前記新たな特徴ベクトルに次に近い状態との間の接続が生成されるように前記ネットワークモデルを更新するための手段と、
前記次の状態とそれに隣接する状態との間の接続の経過時間の測定値をリフレッシュするための手段と、
前記ネットワークモデル内の接続の経過時間の測定値を増分するための手段とを含む、請求項1に記載のシステム。

【請求項4】
コンピュータ上で実行されると、コンピュータを請求項1~請求項3のいずれかに記載のシステムとして機能させる、コンピュータプログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2007018135thum.jpg
出願権利状態 登録
※ 詳細内容の開示にあたっては、別途、JSTと秘密保持契約を締結していただくことが必要となります。


PAGE TOP

close
close
close
close
close
close
close