現在の 3D 単一オブジェクト追跡方法は、通常、3D 領域提案ネットワークである VoteNet に基づいています。成功したにもかかわらず、VoteNet でオフセット学習の手がかりとして単一のシード ポイント機能を使用すると、高品質の 3D 提案が生成されなくなります。さらに、重要度の異なるシード ポイントが投票プロセスで均等に扱われるため、この欠陥が悪化します。これらの問題に対処するために、より有益な手がかりを提供し、モデルが潜在的なシード ポイントにもっと注意を払うように導く新しいグローバル - ローカル トランスフォーマー投票スキームを提案し、高品質の 3D 提案の生成を促進します。技術的には、グローバル ローカル トランスフォーマー (GLT) モジュールを使用して、オブジェクトとパッチを認識する事前情報をシード ポイント機能に統合し、シード ポイントの幾何学的位置の強力な機能表現を効果的に形成することで、オフセット学習のためのより堅牢で正確なキューを提供します。 .続いて、GLTモジュールをトレーニングするためのシンプルで効果的なトレーニング戦略が設計されています。重要度予測ブランチを開発して、シード ポイントの潜在的な重要性を学習し、出力重みベクトルをトレーニング制約条件として扱います。以上の要素を組み合わせることで、優れたトラッキング方式GLT-Tを発揮します。困難な KITTI および NuScenes ベンチマークでの広範な実験は、GLT-T が 3D 単一オブジェクト追跡タスクで最先端のパフォーマンスを達成することを示しています。その上、さらなるアブレーション研究は、元の VoteNet に対する提案されたグローバル - ローカル トランスフォーマー投票方式の利点を示しています。コードとモデルは https://github.com/haooozi/GLT-T で入手できます。
Current 3D single object tracking methods are typically based on VoteNet, a 3D region proposal network. Despite the success, using a single seed point feature as the cue for offset learning in VoteNet prevents high-quality 3D proposals from being generated. Moreover, seed points with different importance are treated equally in the voting process, aggravating this defect. To address these issues, we propose a novel global-local transformer voting scheme to provide more informative cues and guide the model pay more attention on potential seed points, promoting the generation of high-quality 3D proposals. Technically, a global-local transformer (GLT) module is employed to integrate object- and patch-aware prior into seed point features to effectively form strong feature representation for geometric positions of the seed points, thus providing more robust and accurate cues for offset learning. Subsequently, a simple yet effective training strategy is designed to train the GLT module. We develop an importance prediction branch to learn the potential importance of the seed points and treat the output weights vector as a training constraint term. By incorporating the above components together, we exhibit a superior tracking method GLT-T. Extensive experiments on challenging KITTI and NuScenes benchmarks demonstrate that GLT-T achieves state-of-the-art performance in the 3D single object tracking task. Besides, further ablation studies show the advantages of the proposed global-local transformer voting scheme over the original VoteNet. Code and models will be available at https://github.com/haooozi/GLT-T.