TOP > 国内特許検索 > 行動推定装置、行動推定方法、および行動推定プログラム

行動推定装置、行動推定方法、および行動推定プログラム NEW 新技術説明会

国内特許コード P210017735
整理番号 (S2018-0471-C0)
掲載日 2021年5月27日
出願番号 特願2020-514025
出願日 平成31年3月20日(2019.3.20)
国際出願番号 JP2019011693
国際公開番号 WO2019202900
国際出願日 平成31年3月20日(2019.3.20)
国際公開日 令和元年10月24日(2019.10.24)
優先権データ
  • 特願2018-078057 (2018.4.15) JP
発明者
  • 境野 翔
出願人
  • 国立大学法人筑波大学
発明の名称 行動推定装置、行動推定方法、および行動推定プログラム NEW 新技術説明会
発明の概要 【課題】条件の変化に対して頑強な物体操作技能の学習を実現する。
【解決手段】行動推定装置100は、マスタロボットとスレーブロボットとの間で双方向制御を行うことによってマスタロボットを介してスレーブロボットを操作可能なバイラテラルシステムを用いて複数の異なる条件においてスレーブロボットを操作したときの技能データを収集する収集部200を含む。また、行動推定装置100は、収集部200によって収集された技能データおよびスレーブロボット520から出力される応答に基づいてスレーブロボット520を自動行動させるための指令値を推定する行動推定器300を含む。
【選択図】図5
従来技術、競合技術の概要

近年、人間が行っている様々な物体操作作業をロボットに代替することが求められている。物体操作作業とは、例えば、農作業における収穫または採集、建設作業、倉庫でのピッキング、料理、手術、洗濯などを含む。

物体操作作業をロボットに代替するために、強化学習を用いて物体操作技能をロボットに習得させる手法が知られている。強化学習は、ある環境内においてエージェントが現在の状況を観察し、取るべき行動を決定する機械学習の一種である。エージェントは、行動を選択することで環境から報酬を得る。強化学習は、一連の行動を通じて報酬が最も多く得られるような方策を学習する。

しかしながら、強化学習を用いて物体操作技能を習得する手法は、膨大な回数の物体操作を必要とする。物体操作は囲碁のようなソフトウェアで再現できるものでないので、一度の試行にかかる時間を高速化できない。このため、試行回数の低減が望まれる。

これに対して、模倣学習を用いて物体操作技能をロボットに習得させる手法が知られている。模倣学習は、例えば操作者の位置指令によってロボットを操作したときのデータを収集し、収集したデータに基づいて物体操作技能をロボットに習得させるものである。模倣学習を用いると試行回数を大幅に減らすことが期待できる。

しかしながら、模倣学習の分野ではデータ収集時に操作者とロボットとの間の双方向性を考慮しておらず、物体操作技能を人間が十分に発揮できないことが問題となっていた。その結果、物体操作成功率が十分に高くなく改善の余地があった。

この点、操作者とロボットとの間の双方向性を考慮したバイラテラルシステムが知られている。バイラテラルシステムは、操作者が操作するマスタロボットと、マスタロボットに連動して動作するスレーブロボットとの間で双方向制御を行うものである。マスタロボットを操作したときのデータを保存し、再生することによってスレーブロボットに操作者の操作を再現させることができる。

産業上の利用分野

本発明は、行動推定装置、行動推定方法、および行動推定プログラムに関する。

特許請求の範囲 【請求項1】
マスタ装置とスレーブ装置との間で双方向制御を行うことによって前記マスタ装置を介して前記スレーブ装置を操作可能なバイラテラルシステムを用いて複数の異なる条件において前記スレーブ装置を操作したときの技能データを収集する収集部と、
前記収集部によって収集された前記技能データおよび制御対象体から出力される応答に基づいて前記制御対象体を自動行動させるための指令値を推定する行動推定器と、
を含み、
前記収集部は、前記バイラテラルシステムを用いて前記スレーブ装置を操作したときの前記マスタ装置の操作に対する前記スレーブ装置の動作の追従遅れに応じて前記スレーブ装置を操作したときの技能データを収集し、
前記行動推定器は、前記収集部によって収集された前記スレーブ装置の動作の追従遅れに応じて前記スレーブ装置を操作したときの技能データおよび制御対象体から出力される応答に基づいて前記制御対象体を自動行動させるための指令値を推定する、
行動推定装置。

【請求項2】
前記行動推定器は、前記制御対象体を自動行動させるための指令値として位置指令値および力指令値を推定するものであり、
前記行動推定装置は、
前記行動推定器によって推定された前記位置指令値および前記制御対象体から出力される位置応答に基づいて前記制御対象体に入力する位置制御入力を出力する位置制御器と、
前記行動推定器によって推定された前記力指令値および前記制御対象体から出力される力応答に基づいて前記制御対象体に入力する力制御入力を出力する力制御器と、
をさらに含む、
請求項1に記載の行動推定装置。

【請求項3】
前記マスタ装置は、操作者の操作に応じて動作するマスタロボットであり、
前記スレーブ装置は、前記マスタロボットの動作に応じて動作するスレーブロボットであり、
前記バイラテラルシステムは、前記マスタロボットと前記スレーブロボットとの間で双方向制御を行うことによって前記操作者が前記スレーブロボットからの反作用情報を認識して適応的な操作を行うことが可能である、
請求項1または2に記載の行動推定装置。

【請求項4】
前記スレーブ装置は、前記スレーブ装置の周辺環境を撮影可能な画像撮影部、前記スレーブ装置の周辺の音を取得可能な音響取得部、および前記スレーブ装置の触覚情報を取得可能な触覚取得部の少なくとも一方を含む、
請求項1から3のいずれか1項に記載の行動推定装置。

【請求項5】
前記制御対象体から出力される位置応答および力応答、前記行動推定器から出力される位置指令値および力指令値、または前記制御対象体に入力される位置制御入力および力制御入力、の少なくともいずれか1つに対して前処理を行う前処理部をさらに含む、
請求項1から4のいずれか1項に記載の行動推定装置。

【請求項6】
前記前処理部は、
前記制御対象体から出力される力応答、前記行動推定器から出力される力指令値、または前記制御対象体に入力される力制御入力、の少なくともいずれか1つについて、前記力応答、前記力指令値、または前記力制御入力の第1の範囲における変動に対する前処理後の値の変動が、前記第1の範囲より大きい第2の範囲における変動に対する前処理後の値の変動よりも大きくなるように前処理を行う、
請求項5に記載の行動推定装置。

【請求項7】
前記制御対象体から出力される力応答、前記行動推定器から出力される力指令値、または前記制御対象体に入力される力制御入力、の少なくともいずれか1つを前記力応答、前記力指令値、または前記力制御入力の大きさに応じて複数に分類する力分類部をさらに含み、
前記力分類部によって分類された複数の前記力応答、前記力指令値、または前記力制御入力を異なる力応答、力指令値、または力制御入力として扱う、
請求項5に記載の行動推定装置。

【請求項8】
前記収集部によって収集された前記技能データを前記制御対象体の動作周波数に応じた周波数によってサンプリングして間引き技能データを生成する技能データ前処理部をさらに含み、
前記行動推定器は、前記間引き技能データおよび制御対象体から出力される応答に基づいて前記制御対象体を自動行動させるための指令値を推定する、
請求項1から7のいずれか1項に記載の行動推定装置。

【請求項9】
前記技能データ前処理部は、前記収集部によって収集された前記技能データを前記制御対象体の動作周波数に応じた周波数によって複数の異なるタイミングでサンプリングして複数の間引き技能データを生成し、
前記行動推定器は、前記複数の間引き技能データおよび制御対象体から出力される応答に基づいて前記制御対象体を自動行動させるための指令値を推定する、
請求項8に記載の行動推定装置。

【請求項10】
前記技能データ前処理部は、前記収集部によって収集された前記技能データに含まれる複数種類の情報を、前記制御対象体の動作周波数に応じた異なる周波数でサンプリングして複数の間引き技能データを生成し、
前記行動推定器は、前記複数の間引き技能データおよび制御対象体から出力される応答に基づいて前記制御対象体を自動行動させるための指令値を推定する、
請求項8に記載の行動推定装置。

【請求項11】
前記技能データ前処理部は、前記複数の間引き技能データ同士の相関が小さくなるように、前記収集部によって収集された前記技能データに含まれる複数種類の情報を、前記制御対象体の動作周波数に応じた異なる周波数でサンプリングして複数の間引き技能データを生成する、
請求項10に記載の行動推定装置。

【請求項12】
前記制御対象体の動作周波数に応じた周波数は、前記動作周波数の5倍から100倍程度の周波数である、
請求項8から11のいずれか1項に記載の行動推定装置。

【請求項13】
前記制御対象体の動作周波数に応じた周波数は、前記動作周波数の20倍から50倍の周波数である、
請求項12に記載の行動推定装置。

【請求項14】
マスタ装置とスレーブ装置との間で双方向制御を行うことによって前記マスタ装置を介して前記スレーブ装置を操作可能なバイラテラルシステムを用いて複数の異なる条件において前記スレーブ装置を操作したときの技能データを収集する収集ステップと、
前記収集ステップによって収集された前記技能データおよび制御対象体から出力される応答に基づいて前記制御対象体を自動行動させるための指令値を推定する行動推定ステップと、
を含み、
前記収集ステップは、前記バイラテラルシステムを用いて前記スレーブ装置を操作したときの前記マスタ装置の操作に対する前記スレーブ装置の動作の追従遅れに応じて前記スレーブ装置を操作したときの技能データを収集し、
前記行動推定ステップは、前記収集ステップによって収集された前記スレーブ装置の動作の追従遅れに応じて前記スレーブ装置を操作したときの技能データおよび制御対象体から出力される応答に基づいて前記制御対象体を自動行動させるための指令値を推定する、
行動推定方法。

【請求項15】
コンピュータに、
マスタ装置とスレーブ装置との間で双方向制御を行うことによって前記マスタ装置を介して前記スレーブ装置を操作可能なバイラテラルシステムを用いて複数の異なる条件において前記スレーブ装置を操作したときの技能データを収集する収集ステップと、
前記収集ステップによって収集された前記技能データおよび制御対象体から出力される応答に基づいて前記制御対象体を自動行動させるための指令値を推定する行動推定ステップと、
を実行させ、
前記収集ステップは、前記バイラテラルシステムを用いて前記スレーブ装置を操作したときの前記マスタ装置の操作に対する前記スレーブ装置の動作の追従遅れに応じて前記スレーブ装置を操作したときの技能データを収集し、
前記行動推定ステップは、前記収集ステップによって収集された前記スレーブ装置の動作の追従遅れに応じて前記スレーブ装置を操作したときの技能データおよび制御対象体から出力される応答に基づいて前記制御対象体を自動行動させるための指令値を推定する、
行動推定プログラム。
国際特許分類(IPC)
Fターム
画像

※ 画像をクリックすると拡大します。

JP2020514025thum.jpg
出願権利状態 公開
この特許について質問等ある場合は、電子メールによりご連絡ください。


PAGE TOP

close
close
close
close
close
close
close