arXiv reaDer
PETRv2: マルチカメラ画像からの 3D 認識のための統合フレームワーク
PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
この論文では、多視点画像からの 3D 知覚のための統合フレームワークである PETRv2 を提案します。 PETR に基づいて、PETRv2 は、前のフレームの時間情報を利用して 3D オブジェクト検出を強化する時間モデリングの有効性を調査します。より具体的には、時間モデリングのために PETR の 3D 位置埋め込み (3D PE) を拡張します。 3D PE は、異なるフレームのオブジェクト位置の時間的アライメントを実現します。 3D PE のデータ適応性を向上させるために、機能ガイド付き位置エンコーダーがさらに導入されています。マルチタスク学習 (BEV セグメンテーションや 3D レーン検出など) をサポートするために、PETRv2 は、異なるスペースで初期化されるタスク固有のクエリを導入することで、シンプルかつ効果的なソリューションを提供します。 PETRv2 は、3D オブジェクト検出、BEV セグメンテーション、および 3D レーン検出で最先端のパフォーマンスを実現します。詳細なロバスト性分析も PETR フレームワークで行われます。 PETRv2 が 3D 認識の強力なベースラインとして役立つことを願っています。コードは https://github.com/megvii-research/PETR で入手できます。
In this paper, we propose PETRv2, a unified framework for 3D perception from multi-view images. Based on PETR, PETRv2 explores the effectiveness of temporal modeling, which utilizes the temporal information of previous frames to boost 3D object detection. More specifically, we extend the 3D position embedding (3D PE) in PETR for temporal modeling. The 3D PE achieves the temporal alignment on object position of different frames. A feature-guided position encoder is further introduced to improve the data adaptability of 3D PE. To support for multi-task learning (e.g., BEV segmentation and 3D lane detection), PETRv2 provides a simple yet effective solution by introducing task-specific queries, which are initialized under different spaces. PETRv2 achieves state-of-the-art performance on 3D object detection, BEV segmentation and 3D lane detection. Detailed robustness analysis is also conducted on PETR framework. We hope PETRv2 can serve as a strong baseline for 3D perception. Code is available at https://github.com/megvii-research/PETR.
updated: Mon Nov 14 2022 07:58:14 GMT+0000 (UTC)
published: Thu Jun 02 2022 19:13:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト