最近開発されたDETRアプローチは、トランスエンコーダーとデコーダーのアーキテクチャをオブジェクト検出に適用し、有望なパフォーマンスを実現します。このホワイトペーパーでは、重要な問題であるトレーニングの収束が遅いことを扱い、DETRトレーニングを高速化するための条件付き相互注意メカニズムを紹介します。私たちのアプローチは、DETRの相互注意が、4つの端をローカライズし、ボックスを予測するためにコンテンツの埋め込みに大きく依存しているため、高品質のコンテンツの埋め込みの必要性が高まり、トレーニングが困難になることに動機付けられています。条件付きDETRという名前の私たちのアプローチは、デコーダーのマルチヘッドクロスアテンションのためのデコーダー埋め込みから条件付き空間クエリを学習します。利点は、条件付き空間クエリを通じて、各クロスアテンションヘッドが、1つのオブジェクトの端やオブジェクトボックス内の領域など、個別の領域を含むバンドに参加できることです。これにより、オブジェクト分類とボックス回帰のために個別の領域をローカライズするための空間範囲が絞り込まれ、コンテンツの埋め込みへの依存が緩和され、トレーニングが容易になります。経験的結果は、条件付きDETRがバックボーンR50およびR101で6.7倍速く収束し、より強力なバックボーンDC5-R50およびDC5-R101で10倍速く収束することを示しています。コードはhttps://github.com/Atten4Vis/ConditionalDETRで入手できます。
The recently-developed DETR approach applies the transformer encoder and decoder architecture to object detection and achieves promising performance. In this paper, we handle the critical issue, slow training convergence, and present a conditional cross-attention mechanism for fast DETR training. Our approach is motivated by that the cross-attention in DETR relies highly on the content embeddings for localizing the four extremities and predicting the box, which increases the need for high-quality content embeddings and thus the training difficulty. Our approach, named conditional DETR, learns a conditional spatial query from the decoder embedding for decoder multi-head cross-attention. The benefit is that through the conditional spatial query, each cross-attention head is able to attend to a band containing a distinct region, e.g., one object extremity or a region inside the object box. This narrows down the spatial range for localizing the distinct regions for object classification and box regression, thus relaxing the dependence on the content embeddings and easing the training. Empirical results show that conditional DETR converges 6.7x faster for the backbones R50 and R101 and 10x faster for stronger backbones DC5-R50 and DC5-R101. Code is available at https://github.com/Atten4Vis/ConditionalDETR.