TOP > 国内特許検索 > 機械学習システムおよび機械学習方法

機械学習システムおよび機械学習方法 新技術説明会

国内特許コード P130009350
整理番号 11090
掲載日 2013年6月12日
出願番号 特願2012-071205
公開番号 特開2013-205890
登録番号 特許第5916466号
出願日 平成24年3月27日(2012.3.27)
公開日 平成25年10月7日(2013.10.7)
登録日 平成28年4月15日(2016.4.15)
発明者
  • 保田 俊行
  • 大倉 和博
出願人
  • 国立大学法人広島大学
発明の名称 機械学習システムおよび機械学習方法 新技術説明会
発明の概要 【課題】パラメトリック表現された状態空間とノンパラメトリック表現された状態空間とを適応的に選択する。
【解決手段】機械学習システム(1)は、入力および当該入力に対する出力に対して与えられる報酬または罰に基づいて強化学習を行って、パラメトリック表現されたクラス集合を生成する知識獲得手段(12)と、パラメトリック表現されたクラス集合の生成に使用された学習済み入力に基づいて、ノンパラメトリック表現されたクラス集合を生成する知識再構成手段(14)と、未知の入力がノンパラメトリック表現されたどのクラスに属するかクラス判別を行って当該判別結果に応じた出力をする知識利用手段(16)とを備えている。知識再構成手段(14)は、学習済み入力の個数が所定数よりも多く、かつ、パラメトリック表現された各クラスの分散が所定値よりも小さいとき、ノンパラメトリック表現されたクラス集合を生成する。
【選択図】図1
従来技術、競合技術の概要


システムを制御する場合、一般的にはモデル化に基づくトップダウン的アプローチがとられる。しかし、システムの大規模化などの要因により制御が困難になるということも考えられる。一方、ボトムアップアプローチではシステムの構成要素を知能化することで系全体としての合目的的な入出力関係の獲得が可能である。その中の一つに強化学習法がある。強化学習法は、目標状態を与えるのみでそこに至る入出力の系列を自律的に構築できるという実装の容易さから、さまざまなシステムへの応用が期待される。



強化学習法の従来の枠組みでは、離散的な状態・行動空間における写像関係の構築を対象としている。ここで、学習性能はこの状態・行動空間の離散化具合に大きく影響されるが、現在のところそのための設計指針は存在していない。この問題は、連続空間において動作する多くの実システムでは重大な課題である。本願発明者らはこの状態・行動空間の設計問題に対する手法として、強化学習を機能拡張したBayesian-discrimination-function-based Reinforcement Learning(BRL)を研究・開発してきた。BRLは、連続な状態・行動空間を自律的に分割する機能を持つ。さらには、従来型強化学習はマルコフ環境において学習収束が保証されているのみであるが、BRLは学習過程で分割具合を適応的に更新可能であるために動的環境でも学習可能であるという特徴を持つ。これまで、本願発明者らは、実システムとしてロボット、特に複数のロボットで構成されるマルチロボットシステム(Multi-Robot Systems:MRS)を取り上げ、自律移動ロボット群やアーム型ロボット群による協調問題においてBRLの有効性を示してきた。



ところが、その後の追加実験において、BRLでは行動獲得後にさらに学習を続けると、徐々にその頑健性が損なわれる場合があることが観察された。これは、タスク達成に寄与しないルールは削除され、寄与するルールのみが強化されてルール集合に残ることが原因である。すなわち、BRLでは環境に特化したルール集合となる結果、過学習状態となるためにシステムが不安定になる。そこで、近年、本願発明者らはパターン認識手法の一つであるSupport Vector Machine(SVM)の高い識別性能に着目し、SVMによるルール判別がBRLの過学習抑制に有効であることを明らかにした(例えば、非特許文献1参照)。

産業上の利用分野


本発明は、機械学習に関し、特に、強化学習による知識獲得の頑健性向上に関する。

特許請求の範囲 【請求項1】
入力が状態空間におけるどのクラスに属するかクラス判別を行って当該判別結果に応じた出力をし、入出力を繰り返すことで環境に適応した知識を獲得する機械学習システムであって、
入力および当該入力に対する出力に対して与えられる報酬または罰に基づいて強化学習を行って、パラメトリック表現されたクラス集合を生成する知識獲得手段と、
前記パラメトリック表現されたクラス集合の生成に使用された学習済み入力に基づいて、ノンパラメトリック表現されたクラス集合を生成する知識再構成手段と、
未知の入力が前記ノンパラメトリック表現されたどのクラスに属するかクラス判別を行って当該判別結果に応じた出力をする知識利用手段とを備え、
前記知識再構成手段は、前記学習済み入力の個数が所定数よりも多く、かつ、前記パラメトリック表現された各クラスの分散が所定値よりも小さいとき、前記ノンパラメトリック表現されたクラス集合を生成する
ことを特徴とする機械学習システム。

【請求項2】
請求項1に記載の機械学習システムにおいて、
前記パラメトリック表現された各クラスが多変量の正規確率分布であり、
前記知識獲得手段は、ベイズ判別法に従って、入力が前記パラメトリック表現されたどのクラスに属するかクラス判別を行う
ことを特徴とする機械学習システム。

【請求項3】
請求項1および2のいずれか一つに記載の機械学習システムにおいて、
前記知識再構成手段は、サポートベクターマシンを用いて前記学習済み入力を線形分離して、前記ノンパラメトリック表現されたクラス集合を生成する
ことを特徴とする機械学習システム。

【請求項4】
入力が状態空間におけるどのクラスに属するかクラス判別を行って当該判別結果に応じた出力をし、入出力を繰り返すことで環境に適応した知識を獲得する機械学習方法であって、
入力および当該入力に対する出力に対して与えられる報酬または罰に基づいて強化学習を行って、パラメトリック表現されたクラス集合を生成する第1のステップと、
前記パラメトリック表現されたクラス集合の生成に使用された学習済み入力に基づいて、ノンパラメトリック表現されたクラス集合を生成する第2のステップと、
未知の入力が前記ノンパラメトリック表現されたどのクラスに属するかクラス判別を行って当該判別結果に応じた出力をする第3のステップとを備え、
前記第2のステップでは、前記学習済み入力の個数が所定数よりも多く、かつ、前記パラメトリック表現された各クラスの分散が所定値よりも小さいとき、前記ノンパラメトリック表現されたクラス集合が生成される
ことを特徴とする機械学習方法。

【請求項5】
請求項4に記載の機械学習方法において、
前記パラメトリック表現されたクラスが多変量の正規確率分布であり、
前記第1のステップでは、ベイズ判別法に従って、入力が前記パラメトリック表現されたどのクラスに属するかクラス判別が行われる
ことを特徴とする機械学習方法。

【請求項6】
請求項4および5のいずれか一つに記載の機械学習方法において、
前記第2のステップでは、サポートベクターマシンを用いて前記学習済み入力が線形分離され、前記ノンパラメトリック表現されたクラス集合が生成される
ことを特徴とする機械学習方法。
国際特許分類(IPC)
画像

※ 画像をクリックすると拡大します。

JP2012071205thum.jpg
出願権利状態 登録


PAGE TOP

close
close
close
close
close
close
close