このホワイトペーパーでは、YOLOシリーズを超え、インスタンスセグメンテーションや回転オブジェクト検出などの多くのオブジェクト認識タスクに簡単に拡張できる効率的なリアルタイムオブジェクト検出器を設計することを目指しています。より効率的なモデル アーキテクチャを取得するために、大規模なカーネルの深さ方向の畳み込みで構成される基本的なビルディング ブロックによって構築された、バックボーンとネックで互換性のある容量を持つアーキテクチャを調査します。さらに、精度を向上させるために、ダイナミック ラベル割り当てでマッチング コストを計算するときにソフト ラベルを導入します。 RTMDet という名前のオブジェクト検出器は、より優れたトレーニング技術と共に、NVIDIA 3090 GPU で 300+ FPS を使用して、COCO で 52.8% の AP を達成し、現在の主流の産業用検出器よりも優れています。 RTMDet は、さまざまなアプリケーション シナリオに対して、極小/小/中/大/特大のモデル サイズで最適なパラメーター精度のトレードオフを実現し、リアルタイムのインスタンス セグメンテーションと回転オブジェクト検出で新しい最先端のパフォーマンスを実現します。 .実験結果が、多くの物体認識タスク用の汎用リアルタイム物体検出器の設計に新しい洞察を提供できることを願っています。コードとモデルは https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet でリリースされています。
In this paper, we aim to design an efficient real-time object detector that exceeds the YOLO series and is easily extensible for many object recognition tasks such as instance segmentation and rotated object detection. To obtain a more efficient model architecture, we explore an architecture that has compatible capacities in the backbone and neck, constructed by a basic building block that consists of large-kernel depth-wise convolutions. We further introduce soft labels when calculating matching costs in the dynamic label assignment to improve accuracy. Together with better training techniques, the resulting object detector, named RTMDet, achieves 52.8% AP on COCO with 300+ FPS on an NVIDIA 3090 GPU, outperforming the current mainstream industrial detectors. RTMDet achieves the best parameter-accuracy trade-off with tiny/small/medium/large/extra-large model sizes for various application scenarios, and obtains new state-of-the-art performance on real-time instance segmentation and rotated object detection. We hope the experimental results can provide new insights into designing versatile real-time object detectors for many object recognition tasks. Code and models are released at https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet.