この論文では、新しい注意ベースの分類ヘッドであるML-Decoderを紹介します。 ML-Decoderは、クエリを介してクラスラベルの存在を予測し、グローバル平均プーリングと比較して空間データのより良い利用を可能にします。 ML-Decoderは、デコーダアーキテクチャを再設計し、新しいグループデコードスキームを使用することで、非常に効率的であり、数千のクラスに十分に拡張できます。より大きなバックボーンを使用する場合と比較して、ML-Decoderは一貫してより優れた速度と精度のトレードオフを提供します。 ML-Decoderも用途が広く、さまざまな分類ヘッドのドロップイン置換として使用でき、単語クエリで操作すると見えないクラスに一般化できます。新しいクエリ拡張機能は、その一般化機能をさらに向上させます。 ML-Decoderを使用して、いくつかの分類タスクで最先端の結果を達成します。MS-COCOマルチラベルでは、91.4%のmAPに達します。 NUS-WIDEゼロショットでは、31.1%のZSLmAPに達します。また、ImageNetシングルラベルでは、追加のデータや蒸留なしで、バニラResNet50バックボーンで80.7%の新しいトップスコアに到達します。公開コードはhttps://github.com/Alibaba-MIIL/ML_Decoderで入手できます。
In this paper, we introduce ML-Decoder, a new attention-based classification head. ML-Decoder predicts the existence of class labels via queries, and enables better utilization of spatial data compared to global average pooling. By redesigning the decoder architecture, and using a novel group-decoding scheme, ML-Decoder is highly efficient, and can scale well to thousands of classes. Compared to using a larger backbone, ML-Decoder consistently provides a better speed-accuracy trade-off. ML-Decoder is also versatile - it can be used as a drop-in replacement for various classification heads, and generalize to unseen classes when operated with word queries. Novel query augmentations further improve its generalization ability. Using ML-Decoder, we achieve state-of-the-art results on several classification tasks: on MS-COCO multi-label, we reach 91.4% mAP; on NUS-WIDE zero-shot, we reach 31.1% ZSL mAP; and on ImageNet single-label, we reach with vanilla ResNet50 backbone a new top score of 80.7%, without extra data or distillation. Public code is available at: https://github.com/Alibaba-MIIL/ML_Decoder