深層模倣学習は、自律型ロボット操作でハードコードされた制御ルールを必要としない有望なアプローチです。ロボット操作への深い模倣学習の現在のアプリケーションは、現在のタイムステップでの状態に基づく反応制御に制限されています。ただし、将来のロボットは、複雑な環境での経験によって得られたメモリを利用してタスクを解決する必要もあります(たとえば、ロボットが以前に使用したオブジェクトを棚で見つけるように求められた場合)。このような状況では、複雑な環境によって注意散漫が発生するため、単純な深い模倣学習が失敗する可能性があります。順次視覚入力からの視線予測により、ロボットが記憶を必要とする操作タスクを実行できるようにすることを提案します。提案されたアルゴリズムは、メモリを実装するためのシーケンシャルデータに基づく視線推定にTransformerベースの自己注意アーキテクチャを使用します。提案された方法は、以前の状態の記憶を必要とする実際のロボットのマルチオブジェクト操作タスクで評価されました。
Deep imitation learning is a promising approach that does not require hard-coded control rules in autonomous robot manipulation. The current applications of deep imitation learning to robot manipulation have been limited to reactive control based on the states at the current time step. However, future robots will also be required to solve tasks utilizing their memory obtained by experience in complicated environments (e.g., when the robot is asked to find a previously used object on a shelf). In such a situation, simple deep imitation learning may fail because of distractions caused by complicated environments. We propose that gaze prediction from sequential visual input enables the robot to perform a manipulation task that requires memory. The proposed algorithm uses a Transformer-based self-attention architecture for the gaze estimation based on sequential data to implement memory. The proposed method was evaluated with a real robot multi-object manipulation task that requires memory of the previous states.