Top > Search of Japanese Patents > REPRESENTATION METHOD OF VALUE FUNCTION OF REINFORCEMENT LEARNING, AND DEVICE USING THE SAME

REPRESENTATION METHOD OF VALUE FUNCTION OF REINFORCEMENT LEARNING, AND DEVICE USING THE SAME commons foreign

Patent code P110004951
Posted date Aug 18, 2011
Application number P2005-254763
Publication number P2007-066242A
Patent number P4929449
Date of filing Sep 2, 2005
Date of publication of application Mar 15, 2007
Date of registration Feb 24, 2012
Inventor
  • (In Japanese)濱上 知樹
  • (In Japanese)▲渋▼谷 長史
Applicant
  • (In Japanese)国立大学法人横浜国立大学
Title REPRESENTATION METHOD OF VALUE FUNCTION OF REINFORCEMENT LEARNING, AND DEVICE USING THE SAME commons foreign
Abstract PROBLEM TO BE SOLVED: To provide a value function representation method for reinforcement learning so as to solve a perceptual aliasing problem and to facilitate production of a robot capable of autonomous movement learning, and a device using the same.
SOLUTION: A complex value function which defines a status action value by complex numbers is introduced. Time series information will be incorporated into a topology section of a complex value. Thereby, time series information is incorporated into a value function without using complicated algorithm, and a perceptual aliasing problem is solved by simple implementation.
Outline of related art and contending technology (In Japanese)


強化学習は自律移動ロボットのような行動主体が、自ら環境を観測し行動した結果から次の適切な方策を獲得する知的動作である。とくに環境同定型手法は教師信号を使わない学習手段であるため、未知の環境における行動を決めるのに向いたシステムであると言われている。代表的な強化学習方法として、Qラーニングをはじめとする状態行動対の価値関数を求める環境同定型手法や、メモリに記憶したエピソードを利用する経験強化型手法が知られている。



強化学習法の一般理論については[1]S.Russell and P.Norvig:Artificial Intelligence A Modern Approach, Prentice Hall, 1995 (邦訳「エージェントアプローチ 人工知能」共立出版 1997) または [2]R.S.Sutton and A.G.Barto: Reinforcement Learning An Introduction, The MIT Press 1988. (邦訳「強化学習」森北出版、2000) が詳しい。
強化学習法についての改良、応用は数多くあり、例えば、基本アルゴリズムに関して言えば、学習における連続状態空間の扱いや、学習速度向上を目指した研究開発が行われている。例えば、[3]エージェント学習装置(科学技術振興事業団、特許文献1)がある。



【特許文献1】
特開2000-35956

Field of industrial application (In Japanese)


本発明は、自律移動ロボット等に応用する強化学習方法およびこれを用いた装置に関する。

Scope of claims (In Japanese)
【請求項1】
 
状態と行動の対に対して価値関数値を決定し保持する価値関数値保持部と、
前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する行動選択部と、
状態が遷移した時に価値関数値を更新する価値関数値更新部と、
を有し、
前記価値関数値は複素数であり、
前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する
強化学習装置。

【請求項2】
 
前記行動選択部は、前記選択した価値関数値と、前記直前の行動の複素価値関数値を基に算出された複素ベクトルの共役複素数との積の実部を使用して行動を選択する
請求項1に記載の強化学習装置。

【請求項3】
 
前記強化学習装置における強化学習方法として、Qラーニング法を用い、
前記価値関数値更新部は、前記価値関数値の更新式において、適格度トレースアルゴリズムを使用する
請求項1又は2に記載の強化学習装置。

【請求項4】
 
価値関数値保持部と、行動選択部と、価値関数値更新部と、を有する強化学習装置の強化学習方法であって、
前記価値関数値保持部が、状態と行動の対に対して価値関数値を決定し保持する第1のステップと、
前記行動選択部が、前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する第2のステップと、
前記価値関数値更新部が、状態が遷移した時に価値関数値を更新する第3のステップと、
を有し、
前記第1のステップにおいて、前記価値関数値保持部が決定する価値関数値は複素数であって、
前記第3のステップにおいて、前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する
強化学習装置の強化学習方法。
IPC(International Patent Classification)
F-term
Drawing

※Click image to enlarge.

JP2005254763thum.jpg
State of application right Registered
(In Japanese)掲載特許について詳しくお知りになりたい方はHPの「お問い合わせ」ページにてお問い合わせください。


PAGE TOP

close
close
close
close
close
close
close