非常に微妙な違いがあるサブカテゴリのオブジェクトを認識することは、クラス内の大きな変動とクラス間の小さな変動のために、依然として困難な作業です。最近の研究では、この問題に弱監視の方法で取り組んでいます。オブジェクトパーツが最初に検出され、対応するパーツ固有の特徴が詳細な分類のために抽出されます。ただし、これらの方法は通常、各画像のパーツ固有の機能を個別に扱い、異なる画像間の関係を無視します。この論文では、クロスX学習を提案します。これは、堅牢なマルチスケール特徴学習のために、異なる画像間および異なるネットワークレイヤー間の関係を活用するシンプルかつ効果的なアプローチです。このアプローチには、2つの新規コンポーネントが含まれます。(i)抽出された特徴を意味部分を表すように導くクロスカテゴリクロスセマンティックレギュラライザー、および(ii)予測のマッチングによりマルチスケールフィーチャーの堅牢性を向上させるクロスレイヤーレギュライザー複数の層にわたる分布。このアプローチは、エンドツーエンドで簡単にトレーニングでき、NABirdsのような大規模なデータセットに拡張できます。アプローチのさまざまなコンポーネントの寄与を経験的に分析し、5つのベンチマークデータセットでその堅牢性、有効性、および最先端のパフォーマンスを実証します。コードは\ url {https://github.com/cswluo/CrossXで入手できます。
Recognizing objects from subcategories with very subtle differences remains a challenging task due to the large intra-class and small inter-class variation. Recent work tackles this problem in a weakly-supervised manner: object parts are first detected and the corresponding part-specific features are extracted for fine-grained classification. However, these methods typically treat the part-specific features of each image in isolation while neglecting their relationships between different images. In this paper, we propose Cross-X learning, a simple yet effective approach that exploits the relationships between different images and between different network layers for robust multi-scale feature learning. Our approach involves two novel components: (i) a cross-category cross-semantic regularizer that guides the extracted features to represent semantic parts and, (ii) a cross-layer regularizer that improves the robustness of multi-scale features by matching the prediction distribution across multiple layers. Our approach can be easily trained end-to-end and is scalable to large datasets like NABirds. We empirically analyze the contributions of different components of our approach and demonstrate its robustness, effectiveness and state-of-the-art performance on five benchmark datasets. Code is available at \url{https://github.com/cswluo/CrossX.