arXiv reaDer
NeRF-監督:神経放射輝度フィールドからの高密度オブジェクト記述子の学習
NeRF-Supervision: Learning Dense Object Descriptors from Neural Radiance Fields
フォークや泡立て器などの薄くて反射する物体は、私たちの日常生活では一般的ですが、コモディティRGB-Dカメラやマルチビューステレオ技術を使用してそれらを再構築するのは難しいため、ロボットの知覚には特に困難です。従来のパイプラインはこのようなオブジェクトと格闘していますが、最近、ニューラルラディアンスフィールド(NeRF)は、薄い構造や反射材を使用したオブジェクトのビュー合成を実行するのに非常に効果的であることが示されています。このホワイトペーパーでは、堅牢なロボットビジョンシステムの新しい監視ソースとしてのNeRFの使用について説明します。特に、シーンのNeRF表現を使用して高密度オブジェクト記述子をトレーニングできることを示します。最適化されたNeRFを使用して、オブジェクトの複数のビュー間の密な対応を抽出し、これらの対応を、オブジェクトのビュー不変表現を学習するためのトレーニングデータとして使用します。 NeRFの密度フィールドの使用により、深度マップを使用する従来のアプローチとは対照的に、新しい深度分布の定式化で対応問題を再定式化することができます。私たちの方法で監視された高密度対応モデルは、既成の学習記述子を106%(PCK @ 3pxメトリック、2倍以上のパフォーマンス)大幅に上回り、マルチビューステレオで監視されたベースラインを29%上回っています。さらに、学習した高密度記述子により、ロボットが正確な6自由度(6-DoF)のピックと、薄くて反射するオブジェクトの配置を実行できることを示します。
Thin, reflective objects such as forks and whisks are common in our daily lives, but they are particularly challenging for robot perception because it is hard to reconstruct them using commodity RGB-D cameras or multi-view stereo techniques. While traditional pipelines struggle with objects like these, Neural Radiance Fields (NeRFs) have recently been shown to be remarkably effective for performing view synthesis on objects with thin structures or reflective materials. In this paper we explore the use of NeRF as a new source of supervision for robust robot vision systems. In particular, we demonstrate that a NeRF representation of a scene can be used to train dense object descriptors. We use an optimized NeRF to extract dense correspondences between multiple views of an object, and then use these correspondences as training data for learning a view-invariant representation of the object. NeRF's usage of a density field allows us to reformulate the correspondence problem with a novel distribution-of-depths formulation, as opposed to the conventional approach of using a depth map. Dense correspondence models supervised with our method significantly outperform off-the-shelf learned descriptors by 106% (PCK@3px metric, more than doubling performance) and outperform our baseline supervised with multi-view stereo by 29%. Furthermore, we demonstrate the learned dense descriptors enable robots to perform accurate 6-degree of freedom (6-DoF) pick and place of thin and reflective objects.
updated: Thu Mar 03 2022 18:49:57 GMT+0000 (UTC)
published: Thu Mar 03 2022 18:49:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト