きめの細かい視覚的分類 (FGVC) は、さまざまな種間で視覚的に類似した外観があるため、困難な作業です。これまでの研究では常に、トレーニング データとテスト データが同じ基礎的な分布を持ち、最新のバックボーン アーキテクチャによって抽出された特徴が依然として識別力を持ち、目に見えないテスト データまで十分に一般化できると暗黙的に想定されていました。ただし、ベンチマーク データセットではこれらの条件が常に当てはまるわけではないことが経験的に正当化されます。この目的を達成するために、不変リスク最小化 (IRM) と情報ボトルネック (IB) 原理の利点を組み合わせて、FGVC の不変かつ最小十分 (IMS) 表現を学習します。これにより、モデル全体が常に最も簡潔で一貫した詳細な表現を発見できるようになります。粒状の特徴。行列ベースの Rényi の α 次エントロピーを適用して、IB のトレーニングを簡素化し、安定させます。また、IRM を FGVC タスクに適用できるようにする「ソフト」環境パーティション スキームも設計します。私たちの知る限り、一般化の観点から FGVC の問題に取り組み、それに応じて新しい情報理論的ソリューションを開発したのは私たちが初めてです。広範な実験により、IMS によって一貫したパフォーマンスが向上することが実証されています。
Fine-grained visual categorization (FGVC) is a challenging task due to similar visual appearances between various species. Previous studies always implicitly assume that the training and test data have the same underlying distributions, and that features extracted by modern backbone architectures remain discriminative and generalize well to unseen test data. However, we empirically justify that these conditions are not always true on benchmark datasets. To this end, we combine the merits of invariant risk minimization (IRM) and information bottleneck (IB) principle to learn invariant and minimum sufficient (IMS) representations for FGVC, such that the overall model can always discover the most succinct and consistent fine-grained features. We apply the matrix-based Rényi's α-order entropy to simplify and stabilize the training of IB; we also design a ``soft" environment partition scheme to make IRM applicable to FGVC task. To the best of our knowledge, we are the first to address the problem of FGVC from a generalization perspective and develop a new information-theoretic solution accordingly. Extensive experiments demonstrate the consistent performance gain offered by our IMS.