arXiv reaDer
SAM3D: セグメント何でもモデルによるゼロショット 3D オブジェクト検出
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model
大規模な言語モデルの開発に伴い、ChatGPT のような多くの注目すべき言語システムが繁栄し、多くのタスクで驚くべき成功を収め、基礎モデルの信じられないほどの力を示しています。視覚タスクで基礎モデルの機能を解放するという精神で、画像セグメンテーション用の視覚基礎モデルであるセグメント エニシング モデル (SAM) が最近提案され、多くの下流 2D タスクで強力なゼロショット能力を示します。ただし、SAM を 3D 視覚タスク、特に 3D オブジェクト検出に適用できるかどうかはまだ検討されていません。このインスピレーションをもとに、この論文では SAM のゼロショット機能を 3D オブジェクト検出に適応させることを検討します。私たちは、大規模な Waymo オープン データセット上で物体を検出し、有望な結果を得るために、SAM を利用した BEV 処理パイプラインを提案します。初期の試みとして、私たちの方法は視覚基盤モデルを使用した 3D オブジェクト検出に向けて一歩を踏み出し、3D 視覚タスクでその力を解き放つ機会を提供します。コードは https://github.com/DYZhang09/SAM3D で公開されています。
With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D.
updated: Mon Jan 29 2024 12:14:04 GMT+0000 (UTC)
published: Sun Jun 04 2023 03:09:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト