点群からの3D検出には、1段階の方法と2段階の方法の2つのストリームがあります。前者の方が計算効率が高くなりますが、後者の方が通常、検出精度が高くなります。 2段階のアプローチを注意深く検討することにより、適切に設計された場合、最初の段階で正確なボックス回帰が生成されることがわかりました。このシナリオでは、第2段階で主にボックスのスコアを付け直して、ローカリゼーションの優れたボックスが選択されるようにします。この観察から、これらの要件を満たすことができる単一ステージのアンカーフリーネットワークを考案しました。 AFDetV2という名前のこのネットワークは、バックボーンに自己校正された畳み込みブロック、キーポイント補助監視、およびマルチタスクヘッドにIoU予測分岐を組み込むことにより、以前の作業を拡張します。その結果、シングルステージでの検出精度が大幅に向上します。私たちのアプローチを評価するために、WaymoOpenデータセットとnuScenesデータセットで広範な実験を実施しました。 AFDetV2は、これら2つのデータセットで最先端の結果を達成し、シングルステージと2ステージの両方のse3D検出器を含むすべての従来技術よりも優れていることを確認しました。 AFDetV2は、Waymo Open Dataset Challenge 2021のリアルタイム3D検出で1位を獲得しました。さらに、モデルAFDetV2-Baseのバリアントは、チャレンジスポンサーから「最も効率的なモデル」と称され、優れた計算効率を示しました。この1段階の方法の一般性を示すために、2段階のネットワークの最初の段階にも適用しました。例外なく、結果は、強化されたバックボーンと再スコアリングアプローチにより、第2段階の改良が不要になったことを示しています。
There have been two streams in the 3D detection from point clouds: single-stage methods and two-stage methods. While the former is more computationally efficient, the latter usually provides better detection accuracy. By carefully examining the two-stage approaches, we have found that if appropriately designed, the first stage can produce accurate box regression. In this scenario, the second stage mainly rescores the boxes such that the boxes with better localization get selected. From this observation, we have devised a single-stage anchor-free network that can fulfill these requirements. This network, named AFDetV2, extends the previous work by incorporating a self-calibrated convolution block in the backbone, a keypoint auxiliary supervision, and an IoU prediction branch in the multi-task head. As a result, the detection accuracy is drastically boosted in the single-stage. To evaluate our approach, we have conducted extensive experiments on the Waymo Open Dataset and the nuScenes Dataset. We have observed that our AFDetV2 achieves the state-of-the-art results on these two datasets, superior to all the prior arts, including both the single-stage and the two-stage se3D detectors. AFDetV2 won the 1st place in the Real-Time 3D Detection of the Waymo Open Dataset Challenge 2021. In addition, a variant of our model AFDetV2-Base was entitled the "Most Efficient Model" by the Challenge Sponsor, showing a superior computational efficiency. To demonstrate the generality of this single-stage method, we have also applied it to the first stage of the two-stage networks. Without exception, the results show that with the strengthened backbone and the rescoring approach, the second stage refinement is no longer needed.