arXiv reaDer
チャネルワイズトランスフォーマーによる3Dオブジェクト検出の改善
Improving 3D Object Detection with Channel-wise Transformer
点群からの3Dオブジェクト検出は近年急速な進歩を遂げていますが、柔軟で高性能な提案の改良の欠如は、既存の最先端の2ステージ検出器にとって依然として大きなハードルです。 3D提案の改良に関するこれまでの作業は、キーポイントサンプリング、セット抽象化、マルチスケールフィーチャフュージョンなどの人間が設計したコンポーネントに依存して、強力な3Dオブジェクト表現を生成していました。ただし、このような方法では、ポイント間の豊富なコンテキスト依存関係をキャプチャする機能が制限されています。このホワイトペーパーでは、高品質の領域提案ネットワークとChannel-wise Transformerアーキテクチャを活用して、最小限の手作り設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を構成します。提案されたCT3Dは、各プロポーザル内のポイントフィーチャに対して、プロポーザル対応の埋め込みとチャネルごとのコンテキスト集約を同時に実行します。具体的には、CT3Dは、空間コンテキストモデリングにプロポーザルのキーポイントを使用し、エンコーディングモジュールで注意の伝播を学習して、プロポーザルをポイント埋め込みにマッピングします。次に、新しいチャネルごとのデコードモジュールは、チャネルごとの再重み付けを介してクエリとキーの相互作用を強化し、マルチレベルコンテキストを効果的にマージします。これにより、より正確なオブジェクト予測が可能になります。広範な実験により、CT3Dメソッドが優れたパフォーマンスと優れたスケーラビリティを備えていることが実証されています。注目すべきことに、CT3Dは、KITTIテスト3D検出ベンチマークで中程度の車のカテゴリで81.77%のAPを達成し、最先端の3D検出器を上回っています。
Though 3D object detection from point clouds has achieved rapid progress in recent years, the lack of flexible and high-performance proposal refinement remains a great hurdle for existing state-of-the-art two-stage detectors. Previous works on refining 3D proposals have relied on human-designed components such as keypoints sampling, set abstraction and multi-scale feature fusion to produce powerful 3D object representations. Such methods, however, have limited ability to capture rich contextual dependencies among points. In this paper, we leverage the high-quality region proposal network and a Channel-wise Transformer architecture to constitute our two-stage 3D object detection framework (CT3D) with minimal hand-crafted design. The proposed CT3D simultaneously performs proposal-aware embedding and channel-wise context aggregation for the point features within each proposal. Specifically, CT3D uses proposal's keypoints for spatial contextual modelling and learns attention propagation in the encoding module, mapping the proposal to point embeddings. Next, a new channel-wise decoding module enriches the query-key interaction via channel-wise re-weighting to effectively merge multi-level contexts, which contributes to more accurate object predictions. Extensive experiments demonstrate that our CT3D method has superior performance and excellent scalability. Remarkably, CT3D achieves the AP of 81.77% in the moderate car category on the KITTI test 3D detection benchmark, outperforms state-of-the-art 3D detectors.
updated: Mon Aug 23 2021 02:03:40 GMT+0000 (UTC)
published: Mon Aug 23 2021 02:03:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト