最近提案されたDetectionTransformer(DETR)モデルは、Transformerをオブジェクト検出に正常に適用し、Faster-RCNNなどの2段階のオブジェクト検出フレームワークと同等のパフォーマンスを実現します。ただし、DETRは収束が遅いという問題があります。 DETRを最初からトレーニングするには、高精度を達成するために500エポックが必要です。その収束を加速するために、DETRフレームワークを改善するためのシンプルで効果的なスキーム、つまり空間変調共同注意(SMCA)メカニズムを提案します。 SMCAの中心的な考え方は、最初に推定された境界ボックスの位置の近くで共注意応答を高く制限することにより、DETRで位置認識の共注意を実行することです。提案されたSMCAは、DETRの他の操作を変更せずに、デコーダーの元の同時アテンションメカニズムを置き換えることにより、DETRの収束速度を向上させます。さらに、マルチヘッドおよびスケール選択アテンションデザインをSMCAに統合することにより、本格的なSMCAは、拡張畳み込みベースのバックボーンを備えたDETRと比較して優れたパフォーマンスを実現できます(108エポックで45.6 mAP、500エポックで43.3 mAP)。 SMCAを検証するために、COCOデータセットに対して広範なアブレーション研究を実施します。コードはhttps://github.com/gaopengcuhk/SMCA-DETRでリリースされています。
The recently proposed Detection Transformer (DETR) model successfully applies Transformer to objects detection and achieves comparable performance with two-stage object detection frameworks, such as Faster-RCNN. However, DETR suffers from its slow convergence. Training DETR from scratch needs 500 epochs to achieve a high accuracy. To accelerate its convergence, we propose a simple yet effective scheme for improving the DETR framework, namely Spatially Modulated Co-Attention (SMCA) mechanism. The core idea of SMCA is to conduct location-aware co-attention in DETR by constraining co-attention responses to be high near initially estimated bounding box locations. Our proposed SMCA increases DETR's convergence speed by replacing the original co-attention mechanism in the decoder while keeping other operations in DETR unchanged. Furthermore, by integrating multi-head and scale-selection attention designs into SMCA, our fully-fledged SMCA can achieve better performance compared to DETR with a dilated convolution-based backbone (45.6 mAP at 108 epochs vs. 43.3 mAP at 500 epochs). We perform extensive ablation studies on COCO dataset to validate SMCA. Code is released at https://github.com/gaopengcuhk/SMCA-DETR .