arXiv reaDer
DAB-DETR:動的アンカーボックスはDETRのより良いクエリです
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR
このホワイトペーパーでは、DETR(DEtection TRansformer)の動的アンカーボックスを使用した新しいクエリの定式化を紹介し、DETRでのクエリの役割についての理解を深めます。この新しい定式化では、ボックス座標をTransformerデコーダーのクエリとして直接使用し、レイヤーごとに動的に更新します。ボックス座標を使用すると、明示的な位置事前分布を使用してクエリと機能の類似性を向上させ、DETRでのトレーニングの収束が遅い問題を排除できるだけでなく、ボックスの幅と高さの情報を使用して位置アテンションマップを調整することもできます。このような設計により、DETRのクエリは、カスケード方式でレイヤーごとにソフトROIプーリングを実行するように実装できることが明確になります。その結果、同じ設定でのDETRのような検出モデルの中でMS-COCOベンチマークで最高のパフォーマンスが得られます。たとえば、50エポックでトレーニングされたバックボーンとしてResNet50-DC5を使用したAP 45.7%です。また、分析を確認し、メソッドの有効性を検証するために、広範な実験を実施しました。コードはhttps://github.com/SlongLiu/DAB-DETRで入手できます。
We present in this paper a novel query formulation using dynamic anchor boxes for DETR (DEtection TRansformer) and offer a deeper understanding of the role of queries in DETR. This new formulation directly uses box coordinates as queries in Transformer decoders and dynamically updates them layer-by-layer. Using box coordinates not only helps using explicit positional priors to improve the query-to-feature similarity and eliminate the slow training convergence issue in DETR, but also allows us to modulate the positional attention map using the box width and height information. Such a design makes it clear that queries in DETR can be implemented as performing soft ROI pooling layer-by-layer in a cascade manner. As a result, it leads to the best performance on MS-COCO benchmark among the DETR-like detection models under the same setting, e.g., AP 45.7% using ResNet50-DC5 as backbone trained in 50 epochs. We also conducted extensive experiments to confirm our analysis and verify the effectiveness of our methods. Code is available at https://github.com/SlongLiu/DAB-DETR.
updated: Tue Mar 22 2022 08:28:59 GMT+0000 (UTC)
published: Fri Jan 28 2022 18:51:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト