arXiv reaDer
条件付きDETRV2:ボックスクエリを備えた効率的な検出トランス
Conditional DETR V2: Efficient Detection Transformer with Box Queries
このホワイトペーパーでは、NMSなどの手作りの後処理を使用しないトランスフォーマーエンコーダーデコーダーアーキテクチャに基づくエンドツーエンドのオブジェクト検出アプローチであるDetection Transformer(DETR)に関心があります。条件付きDETR、高速トレーニング収束を備えた改善されたDETRに触発され、内部デコーダーレイヤーのボックスクエリ(元々は空間クエリと呼ばれていました)を提示し、オブジェクトクエリを参照の埋め込みの合成であるボックスクエリの形式に再定式化しますポイントと、参照ポイントに対するボックスの変換。この再定式化は、DETRのオブジェクトクエリとFasterR-CNNで広く研究されているアンカーボックスとの関係を示しています。さらに、画像コンテンツからボックスクエリを学習し、トレーニングの収束を高速化しながら、条件付きDETRの検出品質をさらに向上させます。さらに、メモリコストを節約し、エンコーダを高速化するために、軸方向の自己注意のアイデアを採用しています。結果として得られる検出器は、Conditional DETR V2と呼ばれ、Conditional DETRよりも優れた結果を達成し、メモリコストを節約し、より効率的に実行されます。たとえば、DC5-ResNet-50バックボーンの場合、COCOvalセットで16.4FPSで44.8APを達成し、条件付きDETRと比較して、1.6倍高速に実行され、全体のメモリコストの74%を節約し、1.0APを改善します。スコア。
In this paper, we are interested in Detection Transformer (DETR), an end-to-end object detection approach based on a transformer encoder-decoder architecture without hand-crafted postprocessing, such as NMS. Inspired by Conditional DETR, an improved DETR with fast training convergence, that presented box queries (originally called spatial queries) for internal decoder layers, we reformulate the object query into the format of the box query that is a composition of the embeddings of the reference point and the transformation of the box with respect to the reference point. This reformulation indicates the connection between the object query in DETR and the anchor box that is widely studied in Faster R-CNN. Furthermore, we learn the box queries from the image content, further improving the detection quality of Conditional DETR still with fast training convergence. In addition, we adopt the idea of axial self-attention to save the memory cost and accelerate the encoder. The resulting detector, called Conditional DETR V2, achieves better results than Conditional DETR, saves the memory cost and runs more efficiently. For example, for the DC5-ResNet-50 backbone, our approach achieves 44.8 AP with 16.4 FPS on the COCO val set and compared to Conditional DETR, it runs 1.6× faster, saves 74% of the overall memory cost, and improves 1.0 AP score.
updated: Mon Jul 18 2022 20:08:55 GMT+0000 (UTC)
published: Mon Jul 18 2022 20:08:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト