自己教師あり対照学習は、視覚表現の学習に大きな可能性を示しています。画像分類やオブジェクト検出などのさまざまなダウンストリームタスクでの成功にもかかわらず、きめ細かいシナリオのための自己監視による事前トレーニングは十分に検討されていません。この論文では、現在の対照的な方法は背景/前景のテクスチャを記憶する傾向があり、したがって前景オブジェクトのローカライズに制限があることを最初に指摘します。分析は、識別可能なテクスチャ情報とローカリゼーションを抽出することを学ぶことは、きめ細かいシナリオでの自己教師あり事前トレーニングにとって等しく重要であることを示唆しています。私たちの調査結果に基づいて、クロスビュー顕著性アラインメント(CVSA)を導入します。これは、最初に画像の顕著性領域を新しいビュー生成としてトリミングおよび交換し、次にモデルをガイドしてクロスビューを介して前景オブジェクトにローカライズする対照的な学習フレームワークです。アラインメントロス。 4つの人気のあるきめ細かい分類ベンチマークに関する広範な実験は、CVSAが学習された表現を大幅に改善することを示しています。
Self-supervised contrastive learning has demonstrated great potential in learning visual representations. Despite their success on various downstream tasks such as image classification and object detection, self-supervised pre-training for fine-grained scenarios is not fully explored. In this paper, we first point out that current contrastive methods are prone to memorizing background/foreground texture and therefore have a limitation in localizing the foreground object. Analysis suggests that learning to extract discriminative texture information and localization are equally crucial for self-supervised pre-training in fine-grained scenarios. Based on our findings, we introduce cross-view saliency alignment (CVSA), a contrastive learning framework that first crops and swaps saliency regions of images as a novel view generation and then guides the model to localize on the foreground object via a cross-view alignment loss. Extensive experiments on four popular fine-grained classification benchmarks show that CVSA significantly improves the learned representation.