arXiv reaDer
グラフ構造の視覚的模倣
Graph-Structured Visual Imitation
 視覚的な模倣は視覚的な対応の問題として投げかけます。ロボットエージェントは、そのアクションにより、ワークスペースおよび教師のデモンストレーションで検出された対応する視覚エンティティの相対的な空間構成のより良いマッチングが得られた場合に報酬を受け取ります。人間の指のキーポイント検出器、合成増強でオンザフライで訓練されたオブジェクト検出器、視点の変化によって監視されるポイント検出器など、コンピュータービジョンの最近の進歩に基づいて構築され、人間の注釈やロボットの相互作用のない各デモの複数の視覚エンティティ検出器を学習します。提案されたエンティティの因子化された視覚的表現とその空間的配置が、単一のデモンストレーションを使用し、環境計測なしで、数分以内にさまざまな操作スキルの模倣を成功させることを経験的に示します。背景の乱雑さに対して堅牢であり、デモンストレーターと模倣者の間の環境の違いに効果的に一般化でき、以前の作品の非構造化非因数分解フルフレームCNNエンコーディングを大幅に上回ります。
We cast visual imitation as a visual correspondence problem. Our robotic agent is rewarded when its actions result in better matching of relative spatial configurations for corresponding visual entities detected in its workspace and teacher's demonstration. We build upon recent advances in Computer Vision,such as human finger keypoint detectors, object detectors trained on-the-fly with synthetic augmentations, and point detectors supervised by viewpoint changes and learn multiple visual entity detectors for each demonstration without human annotations or robot interactions. We empirically show the proposed factorized visual representations of entities and their spatial arrangements drive successful imitation of a variety of manipulation skills within minutes, using a single demonstration and without any environment instrumentation. It is robust to background clutter and can effectively generalize across environment variations between demonstrator and imitator, greatly outperforming unstructured non-factorized full-frame CNN encodings of previous works.
updated: Thu Mar 05 2020 01:33:45 GMT+0000 (UTC)
published: Thu Jul 11 2019 23:06:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト