arXiv reaDer
言語命令によってカテゴリレベルのオブジェクトを取得するための6-DoFオブジェクトのポーズの学習
Learning 6-DoF Object Poses to Grasp Category-level Objects by Language Instructions
この論文は、自由形式の言語の指示によって既知のカテゴリーから把握しているオブジェクトのタスクを研究します。このタスクには、コンピュータービジョン、自然言語処理、およびロボット工学の技術が必要です。私たちは、人間とロボットの相互作用に不可欠なこのオープンな課題にこれらの分野をまとめます。重要な課題は、言語命令からオブジェクトのカテゴリを推測し、既知のクラスからの見えないオブジェクトの6-DoF情報を正確に推定することにあります。対照的に、以前の作品は、インスタンスレベルでオブジェクト候補のポーズを推測することに焦点を当てています。これにより、実際のシナリオでのアプリケーションが大幅に制限されます。この論文では、人間の意図を理解することでロボットによる把握を実現するために、言語に基づく6自由度のカテゴリレベルのオブジェクトローカリゼーションモデルを提案します。この目的のために、我々は新しい二段階法を提案する。特に、最初の段階では、オブジェクトの名前、属性、および空間的関係の言語記述を通じて、RGB画像のターゲットを固定します。第2段階では、トリミングされた深度画像から点群を抽出してセグメント化し、カテゴリレベルで完全な6-DoFオブジェクトのポーズを推定します。このような方法で、私たちのアプローチは、人間の指示に従って特定のオブジェクトを特定し、モデルのトレーニングに使用されていない、カテゴリが既知であるが見えないインスタンスの完全な6-DoFポーズを推定できます。広範な実験結果は、私たちの方法が最先端の言語条件付き把握方法と競合することを示しています。重要なのは、実際のアプリケーションでのフレームワークの使いやすさを検証するために、物理ロボットにアプローチを展開することです。ロボット実験のデモビデオについては、補足を参照してください。
This paper studies the task of any objects grasping from the known categories by free-form language instructions. This task demands the technique in computer vision, natural language processing, and robotics. We bring these disciplines together on this open challenge, which is essential to human-robot interaction. Critically, the key challenge lies in inferring the category of objects from linguistic instructions and accurately estimating the 6-DoF information of unseen objects from the known classes. In contrast, previous works focus on inferring the pose of object candidates at the instance level. This significantly limits its applications in real-world scenarios.In this paper, we propose a language-guided 6-DoF category-level object localization model to achieve robotic grasping by comprehending human intention. To this end, we propose a novel two-stage method. Particularly, the first stage grounds the target in the RGB image through language description of names, attributes, and spatial relations of objects. The second stage extracts and segments point clouds from the cropped depth image and estimates the full 6-DoF object pose at category-level. Under such a manner, our approach can locate the specific object by following human instructions, and estimate the full 6-DoF pose of a category-known but unseen instance which is not utilized for training the model. Extensive experimental results show that our method is competitive with the state-of-the-art language-conditioned grasp method. Importantly, we deploy our approach on a physical robot to validate the usability of our framework in real-world applications. Please refer to the supplementary for the demo videos of our robot experiments.
updated: Mon May 09 2022 04:25:14 GMT+0000 (UTC)
published: Mon May 09 2022 04:25:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト