この作業は、テスト時間の増強なしで 700M パラメーターのみを使用して、COCO val2017 で 64.6 AP、COCO test-dev で 64.8 AP を達成する、強力で再現可能なオブジェクト検出モデルである Focal-Stable-DINO を提示します。強力な FocalNet-Huge バックボーンと効果的な Stable-DINO 検出器の組み合わせを探ります。大規模なプライベート データまたはマージされたデータに対して膨大な数のパラメーターと複雑なトレーニング手法を利用する既存の SOTA モデルとは異なり、モデルは公開されているデータセット Objects365 でのみトレーニングされ、アプローチの再現性が保証されます。
This work presents Focal-Stable-DINO, a strong and reproducible object detection model which achieves 64.6 AP on COCO val2017 and 64.8 AP on COCO test-dev using only 700M parameters without any test time augmentation. It explores the combination of the powerful FocalNet-Huge backbone with the effective Stable-DINO detector. Different from existing SOTA models that utilize an extensive number of parameters and complex training techniques on large-scale private data or merged data, our model is exclusively trained on the publicly available dataset Objects365, which ensures the reproducibility of our approach.