TOP > 技術シーズ検索 > 強化学習装置および強化学習方法

強化学習装置および強化学習方法

シーズコード S130010839
掲載日 2013年6月6日
研究者
  • 濱上 知樹
  • ▲渋▼谷 長史
技術名称 強化学習装置および強化学習方法
技術概要 複素Q値の更新式において遷移先の状態に関連する複素Q値をとる際に、位相回転を加えることで時系列の情報(コンテキスト)を含ませる。すなわち直前の行動の複素Q値との位相差を考慮して次のステップで選択されるであろう複素Q値を予測する。予測された複素Q値(複素ベクトルR)と選択可能な行動に対応する複素Q値(複素Q1、複素Q2)の関係をみると、複素ベクトルRの位相項が変化すると、各複素Q値との内積も変化する。つまり、各複素Q値から複素ベクトルRと原点を結ぶ直線に直角に下ろした足と原点との長さが変化する。Q値を実数として扱う場合は、単純に大きさの比較を行うことしか出来ないが、複素Q値を用いると位相差を含んだ比較が可能となる。これによって複雑なアルゴリズムを使わないで時系列を取り入れた行動選択が可能になる。
画像

※ 画像をクリックすると拡大します。

thum_2005-254763.gif
研究分野
  • 人工知能
  • ロボットの運動・制御
展開可能なシーズ 複雑なアルゴリズムを用いることなく時系列情報を価値関数に取り込むことにより、容易な実装でありながら、不完全知覚問題を解決する。
不完全知覚問題のもたらす本質的な欠陥が解消し、自律移動学習が可能なロボットが容易に作ることができる。
用途利用分野 強化学習装置、自律移動ロボット、マルチロボット、多点探査アルゴリズム
出願特許   特許 国際特許分類(IPC)
( 1 ) 国立大学法人横浜国立大学, . 濱上 知樹, ▲渋▼谷 長史, . 強化学習装置および強化学習方法. 特開2007-066242. 2007-03-15
  • G06N   3/00     
  • G05B  13/02     

PAGE TOP