arXiv reaDer
Learning Actions from Human Demonstration Video for Robotic Manipulation
  人間のデモンストレーションからアクションを学習することは、知能化されたロボットシステムを設計するための新たなトレンドであり、これはビデオトゥコマンドと呼ばれます。このようなアプローチのパフォーマンスは、ビデオキャプションの品質に大きく依存しています。ただし、一般的なビデオキャプションの方法は、フレーム全体の理解に重点を置いており、ロボット操作の対象となる特定のオブジェクトについては考慮されていません。ロボット操作のための人間のデモンストレーションビデオからアクションを学ぶための新しい深いモデルを提案します。把握検出ネットワーク(GNet)とビデオキャプションネットワーク(CNet)の2つのディープネットワークで構成されています。 GNetは2つの機能を実行します。把握ソリューションの提供と、ロボット操作の対象オブジェクトのローカルフィーチャの抽出です。 CNetは、フルフレームとローカルオブジェクトの両方の機能を融合することにより、キャプションの結果を出力します。 UR5ロボットアームの実験結果は、本手法が最先端の作業よりもビデオデモンストレーションからより正確なコマンドを生成し、それによってより堅牢な把持性能につながることを示しています。
Learning actions from human demonstration is an emerging trend for designing intelligent robotic systems, which can be referred as video to command. The performance of such approach highly relies on the quality of video captioning. However, the general video captioning methods focus more on the understanding of the full frame, lacking of consideration on the specific object of interests in robotic manipulations. We propose a novel deep model to learn actions from human demonstration video for robotic manipulation. It consists of two deep networks, grasp detection network (GNet) and video captioning network (CNet). GNet performs two functions: providing grasp solutions and extracting the local features for the object of interests in robotic manipulation. CNet outputs the captioning results by fusing the features of both full frames and local objects. Experimental results on UR5 robotic arm show that our method could produce more accurate command from video demonstration than state-of-the-art work, thereby leading to more robust grasping performance.
updated: Tue Sep 10 2019 06:20:46 GMT+0000 (UTC)
published: Tue Sep 10 2019 06:20:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト