arXiv reaDer
SORNet:順次操作のための空間オブジェクト中心の表現
SORNet: Spatial Object-Centric Representations for Sequential Manipulation
順次操作タスクでは、ロボットが環境の状態を認識し、目的の目標状態につながる一連のアクションを計画する必要があります。この場合、生のセンサー入力からオブジェクトエンティティ間の空間的関係について推論する機能が重要です。明示的な状態推定またはエンドツーエンドの学習に依存する以前の作品は、新しいオブジェクトとの闘いです。この作業では、対象オブジェクトの標準ビューを条件とするRGB画像からオブジェクト中心の表現を抽出するSORNet(空間オブジェクト中心表現ネットワーク)を提案します。 SORNetによって学習されたオブジェクトの埋め込みは、3つの空間推論タスク(空間関係分類、スキル前提条件分類、相対方向回帰)でゼロショットを見えないオブジェクトエンティティに一般化し、ベースラインを大幅に上回っていることを示します。さらに、シーケンシャル操作のタスク計画における学習済みオブジェクト埋め込みの使用法を示す実際のロボット実験を紹介します。
Sequential manipulation tasks require a robot to perceive the state of an environment and plan a sequence of actions leading to a desired goal state, where the ability to reason about spatial relationships among object entities from raw sensor inputs is crucial. Prior works relying on explicit state estimation or end-to-end learning struggle with novel objects. In this work, we propose SORNet (Spatial Object-Centric Representation Network), which extracts object-centric representations from RGB images conditioned on canonical views of the objects of interest. We show that the object embeddings learned by SORNet generalize zero-shot to unseen object entities on three spatial reasoning tasks: spatial relationship classification, skill precondition classification and relative direction regression, significantly outperforming baselines. Further, we present real-world robotic experiments demonstrating the usage of the learned object embeddings in task planning for sequential manipulation.
updated: Wed Sep 08 2021 19:36:29 GMT+0000 (UTC)
published: Wed Sep 08 2021 19:36:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト