最近、大規模な事前トレーニング済み視覚言語モデルは、ロングテール認識におけるクラスの不均衡を軽減する利点を示しています。ただし、尾部の長いデータ分布によって表現空間が破損する可能性があり、先頭カテゴリと末尾カテゴリの間の距離が 2 つの末尾カテゴリ間の距離よりもはるかに大きくなります。この不均一な特徴空間分布により、モデルは均一に分散されたテスト セット上で不明確で分離不可能な決定境界を示し、パフォーマンスが低下します。これらの課題に対処するために、データの不均衡によって引き起こされる特徴空間の偏りを効果的に軽減する、均一カテゴリーのプロトタイプに基づいたビジョン言語フレームワークを提案します。特に、超球上に均一に分散されたカテゴリ プロトタイプのセットを生成します。画像とテキストのマッチングのためのカテゴリ プロトタイプに基づくメカニズムにより、さまざまなクラスの特徴がこれらの個別の均一に分散されたカテゴリ プロトタイプに収束し、特徴空間内で均一な分布が維持され、クラス境界が改善されます。さらに、私たちが提案した無関係なテキスト フィルタリングおよび属性強化モジュールにより、モデルは無関係なノイズの多いテキストを無視し、主要な属性情報により重点を置くことができるため、フレームワークの堅牢性が向上します。画像認識の微調整段階では、学習可能な分類器の正のバイアスの問題に対処するために、先頭クラスのパフォーマンスを維持しながら末尾クラスのパフォーマンスを補償するクラス特徴プロトタイプ誘導分類器を設計します。私たちの手法は、ロングテール学習作業における以前のビジョン言語手法を大幅に上回り、最先端のパフォーマンスを達成します。
Recently, large-scale pre-trained vision-language models have presented benefits for alleviating class imbalance in long-tailed recognition. However, the long-tailed data distribution can corrupt the representation space, where the distance between head and tail categories is much larger than the distance between two tail categories. This uneven feature space distribution causes the model to exhibit unclear and inseparable decision boundaries on the uniformly distributed test set, which lowers its performance. To address these challenges, we propose the uniformly category prototype-guided vision-language framework to effectively mitigate feature space bias caused by data imbalance. Especially, we generate a set of category prototypes uniformly distributed on a hypersphere. Category prototype-guided mechanism for image-text matching makes the features of different classes converge to these distinct and uniformly distributed category prototypes, which maintain a uniform distribution in the feature space, and improve class boundaries. Additionally, our proposed irrelevant text filtering and attribute enhancement module allows the model to ignore irrelevant noisy text and focus more on key attribute information, thereby enhancing the robustness of our framework. In the image recognition fine-tuning stage, to address the positive bias problem of the learnable classifier, we design the class feature prototype-guided classifier, which compensates for the performance of tail classes while maintaining the performance of head classes. Our method outperforms previous vision-language methods for long-tailed learning work by a large margin and achieves state-of-the-art performance.