arXiv reaDer
Pri3D:3Dプライアは2D表現学習に役立ちますか?
Pri3D: Can 3D Priors Help 2D Representation Learning?
3D知覚の最近の進歩は、3D形状の幾何学的構造やシーンさえも理解する上で目覚ましい進歩を示しています。幾何学的理解におけるこれらの進歩に触発されて、私たちは幾何学的制約の下で学習された表現で画像ベースの知覚を吹き込むことを目指しています。マルチビューRGB-Dデータに基づいて、ネットワークの事前トレーニングのためのビュー不変でジオメトリを意識した表現を学習するアプローチを紹介します。これは、ダウンストリームの2Dタスクに効果的に転送できます。マルチビュー画像制約と画像幾何学的制約の両方の下で対照的な学習を採用して、3D事前確率を学習された2D表現にエンコードすることを提案します。これにより、セマンティックセグメンテーション、インスタンスセグメンテーション、および実世界の屋内データセットでのオブジェクト検出の画像ベースのタスクでの2Dのみの表現学習よりも改善されるだけでなく、低データレジームが大幅に改善されます。 ScanNetのベースラインに対して、完全なデータのセマンティックセグメンテーションで6.0%、20%のデータで11.9%の大幅な改善が見られます。
Recent advances in 3D perception have shown impressive progress in understanding geometric structures of 3Dshapes and even scenes. Inspired by these advances in geometric understanding, we aim to imbue image-based perception with representations learned under geometric constraints. We introduce an approach to learn view-invariant,geometry-aware representations for network pre-training, based on multi-view RGB-D data, that can then be effectively transferred to downstream 2D tasks. We propose to employ contrastive learning under both multi-view im-age constraints and image-geometry constraints to encode3D priors into learned 2D representations. This results not only in improvement over 2D-only representation learning on the image-based tasks of semantic segmentation, instance segmentation, and object detection on real-world in-door datasets, but moreover, provides significant improvement in the low data regime. We show a significant improvement of 6.0% on semantic segmentation on full data as well as 11.9% on 20% data against baselines on ScanNet.
updated: Thu Apr 22 2021 17:59:30 GMT+0000 (UTC)
published: Thu Apr 22 2021 17:59:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト