Top > Search Technology seeds > REPRESENTATION METHOD OF VALUE FUNCTION OF REINFORCEMENT LEARNING, AND DEVICE USING THE SAME

REPRESENTATION METHOD OF VALUE FUNCTION OF REINFORCEMENT LEARNING, AND DEVICE USING THE SAME

Seeds code S130010839
Posted date Jun 6, 2013
Researchers
  • (In Japanese)濱上 知樹
  • (In Japanese)▲渋▼谷 長史
Name of technology REPRESENTATION METHOD OF VALUE FUNCTION OF REINFORCEMENT LEARNING, AND DEVICE USING THE SAME
Technology summary (In Japanese)複素Q値の更新式において遷移先の状態に関連する複素Q値をとる際に、位相回転を加えることで時系列の情報(コンテキスト)を含ませる。すなわち直前の行動の複素Q値との位相差を考慮して次のステップで選択されるであろう複素Q値を予測する。予測された複素Q値(複素ベクトルR)と選択可能な行動に対応する複素Q値(複素Q1、複素Q2)の関係をみると、複素ベクトルRの位相項が変化すると、各複素Q値との内積も変化する。つまり、各複素Q値から複素ベクトルRと原点を結ぶ直線に直角に下ろした足と原点との長さが変化する。Q値を実数として扱う場合は、単純に大きさの比較を行うことしか出来ないが、複素Q値を用いると位相差を含んだ比較が可能となる。これによって複雑なアルゴリズムを使わないで時系列を取り入れた行動選択が可能になる。
Drawing

※Click image to enlarge.

thum_2005-254763.gif
Research field
  • Artificial intelligence
  • Motion and control of robots
Seeds that can be deployed (In Japanese)複雑なアルゴリズムを用いることなく時系列情報を価値関数に取り込むことにより、容易な実装でありながら、不完全知覚問題を解決する。
不完全知覚問題のもたらす本質的な欠陥が解消し、自律移動学習が可能なロボットが容易に作ることができる。
Usage Use field (In Japanese)強化学習装置、自律移動ロボット、マルチロボット、多点探査アルゴリズム
Application patent   patent IPC(International Patent Classification)
( 1 ) (In Japanese)国立大学法人横浜国立大学, . (In Japanese)濱上 知樹, ▲渋▼谷 長史, . REPRESENTATION METHOD OF VALUE FUNCTION OF REINFORCEMENT LEARNING, AND DEVICE USING THE SAME. P2007-066242A. Mar 15, 2007
  • G06N   3/00     
  • G05B  13/02     

PAGE TOP