ビジョントランスフォーマー(ViT)は、オブジェクト検出アプローチの展望を変えています。検出におけるViTの自然な使用法は、CNNベースのバックボーンをトランスベースのバックボーンに置き換えることです。これは、推論にかなりの計算負荷をもたらすという代償を払って、簡単で効果的です。より微妙な使用法はDETRファミリーです。これは、オブジェクト検出で多くの手動で設計されたコンポーネントの必要性を排除しますが、収束するのに非常に長い時間を必要とするデコーダーを導入します。その結果、トランスベースのオブジェクト検出は、大規模なアプリケーションでは普及できません。これらの問題を克服するために、トレーニングと推論の両方の段階で初めて高効率を実現する、新しいデコーダーフリーの完全トランスベース(DFFT)オブジェクト検出器を提案します。 2つのエントリポイントを中心に、異議の検出をエンコーダのみの単一レベルのアンカーベースの高密度予測問題に単純化します。1)トレーニング効率の悪いデコーダを排除し、2つの強力なエンコーダを活用して、単一レベルの特徴マップ予測の精度を維持します。 2)限られた計算リソースで検出タスクの低レベルのセマンティック機能を調べます。特に、よく考えられたアブレーション研究に基づいて、豊富なセマンティクスで低レベルの機能を効率的にキャプチャする、新しい軽量の検出指向のトランスバックボーンを設計します。 MS COCOベンチマークでの広範な実験は、DFFT_SMALLがDETRより2.5%AP優れており、計算コストが28%削減され、トレーニングエポックが10分の1になっていることを示しています。最先端のアンカーベースの検出器RetinaNetと比較して、DFFT_SMALLは、70%の計算コストを削減しながら、5.5%を超えるAPゲインを取得します。
Vision transformers (ViTs) are changing the landscape of object detection approaches. A natural usage of ViTs in detection is to replace the CNN-based backbone with a transformer-based backbone, which is straightforward and effective, with the price of bringing considerable computation burden for inference. More subtle usage is the DETR family, which eliminates the need for many hand-designed components in object detection but introduces a decoder demanding an extra-long time to converge. As a result, transformer-based object detection can not prevail in large-scale applications. To overcome these issues, we propose a novel decoder-free fully transformer-based (DFFT) object detector, achieving high efficiency in both training and inference stages, for the first time. We simplify objection detection into an encoder-only single-level anchor-based dense prediction problem by centering around two entry points: 1) Eliminate the training-inefficient decoder and leverage two strong encoders to preserve the accuracy of single-level feature map prediction; 2) Explore low-level semantic features for the detection task with limited computational resources. In particular, we design a novel lightweight detection-oriented transformer backbone that efficiently captures low-level features with rich semantics based on a well-conceived ablation study. Extensive experiments on the MS COCO benchmark demonstrate that DFFT_SMALL outperforms DETR by 2.5% AP with 28% computation cost reduction and more than 10x fewer training epochs. Compared with the cutting-edge anchor-based detector RetinaNet, DFFT_SMALL obtains over 5.5% AP gain while cutting down 70% computation cost.