TOP > 国内特許検索 > 強化学習装置および強化学習方法

強化学習装置および強化学習方法 コモンズ 外国出願あり

国内特許コード P110004951
掲載日 2011年8月18日
出願番号 特願2005-254763
公開番号 特開2007-066242
登録番号 特許第4929449号
出願日 平成17年9月2日(2005.9.2)
公開日 平成19年3月15日(2007.3.15)
登録日 平成24年2月24日(2012.2.24)
発明者
  • 濱上 知樹
  • ▲渋▼谷 長史
出願人
  • 国立大学法人横浜国立大学
発明の名称 強化学習装置および強化学習方法 コモンズ 外国出願あり
発明の概要

【課題】強化学習法は自律移動ロボット等に応用される知的動作の一つであり、未知の環境での動作が可能であるなど優れた面を持つシステムであるが、不完全知覚問題という基礎的な課題を持っている。いろいろな解決策が提案されているが、決め手はなく、システムも複雑なものになり兼ねない。簡単で効果的な解決方法が望まれている。
【解決手段】状態行動価値を複素数で定義する複素価値関数を導入する。時系列情報は複素数値の位相部分に取り込むことにする。これにより、複雑なアルゴリズムを用いることなく時系列情報が価値関数に取り込まれ、簡便な実装により不完全知覚問題が有効に解決される。
【選択図】図4

従来技術、競合技術の概要


強化学習は自律移動ロボットのような行動主体が、自ら環境を観測し行動した結果から次の適切な方策を獲得する知的動作である。とくに環境同定型手法は教師信号を使わない学習手段であるため、未知の環境における行動を決めるのに向いたシステムであると言われている。代表的な強化学習方法として、Qラーニングをはじめとする状態行動対の価値関数を求める環境同定型手法や、メモリに記憶したエピソードを利用する経験強化型手法が知られている。



強化学習法の一般理論については[1]S.Russell and P.Norvig:Artificial Intelligence A Modern Approach, Prentice Hall, 1995 (邦訳「エージェントアプローチ 人工知能」共立出版 1997) または [2]R.S.Sutton and A.G.Barto: Reinforcement Learning An Introduction, The MIT Press 1988. (邦訳「強化学習」森北出版、2000) が詳しい。
強化学習法についての改良、応用は数多くあり、例えば、基本アルゴリズムに関して言えば、学習における連続状態空間の扱いや、学習速度向上を目指した研究開発が行われている。例えば、[3]エージェント学習装置(科学技術振興事業団、特許文献1)がある。




【特許文献1】特開2000-35956

産業上の利用分野


本発明は、自律移動ロボット等に応用する強化学習方法およびこれを用いた装置に関する。

特許請求の範囲 【請求項1】
状態と行動の対に対して価値関数値を決定し保持する価値関数値保持部と、
前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する行動選択部と、
状態が遷移した時に価値関数値を更新する価値関数値更新部と、
を有し、
前記価値関数値は複素数であり、
前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する
強化学習装置。

【請求項2】
前記行動選択部は、前記選択した価値関数値と、前記直前の行動の複素価値関数値を基に算出された複素ベクトルの共役複素数との積の実部を使用して行動を選択する
請求項1に記載の強化学習装置。

【請求項3】
前記強化学習装置における強化学習方法として、Qラーニング法を用い、
前記価値関数値更新部は、前記価値関数値の更新式において、適格度トレースアルゴリズムを使用する
請求項1又は2に記載の強化学習装置。

【請求項4】
価値関数値保持部と、行動選択部と、価値関数値更新部と、を有する強化学習装置の強化学習方法であって、
前記価値関数値保持部が、状態と行動の対に対して価値関数値を決定し保持する第1のステップと、
前記行動選択部が、前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する第2のステップと、
前記価値関数値更新部が、状態が遷移した時に価値関数値を更新する第3のステップと、
を有し、
前記第1のステップにおいて、前記価値関数値保持部が決定する価値関数値は複素数であって、
前記第3のステップにおいて、前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する
強化学習装置の強化学習方法。
産業区分
  • 演算制御装置
  • 制御調整
  • 工業用ロボット
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2005254763thum.jpg
出願権利状態 権利存続中
※ 掲載特許について詳しくお知りになりたい方はHPの「お問い合わせ」ページにてお問い合わせください。


PAGE TOP

close
close
close
close
close
close
close