セマンティックグローバル機能と識別ローカル機能の両方をキャプチャすることは困難であるため、きめ細かい画像認識は非常に困難です。一方、これら2つの機能を統合するのは簡単ではなく、同時に使用すると競合することさえあります。この論文では、検索ベースの粗いものから細かいものへのフレームワークを提案します。ここでは、ローカル領域の強化された埋め込み機能を使用してTopN分類結果を再ランク付けし、Top1の精度を向上させます(正しいカテゴリが通常存在するという観察に基づいて) TopNの結果で)。きめの細かい画像を区別するための識別領域を取得するために、画像レベルのラベルのみを使用してボックス生成ブランチをトレーニングする、弱教師あり方法を導入します。さらに、より効果的なセマンティックグローバル機能を学習するために、自動的に構築された階層カテゴリ構造に対してマルチレベルの損失を設計します。実験結果は、私たちの方法が3つのベンチマーク(CUB-200-2011、Stanford Cars、およびFGVC Aircraft)で最先端のパフォーマンスを達成することを示しています。また、理解を深めるために視覚化と分析が提供されています。
Fine-grained image recognition is very challenging due to the difficulty of capturing both semantic global features and discriminative local features. Meanwhile, these two features are not easy to be integrated, which are even conflicting when used simultaneously. In this paper, a retrieval-based coarse-to-fine framework is proposed, where we re-rank the TopN classification results by using the local region enhanced embedding features to improve the Top1 accuracy (based on the observation that the correct category usually resides in TopN results). To obtain the discriminative regions for distinguishing the fine-grained images, we introduce a weakly-supervised method to train a box generating branch with only image-level labels. In addition, to learn more effective semantic global features, we design a multi-level loss over an automatically constructed hierarchical category structure. Experimental results show that our method achieves state-of-the-art performance on three benchmarks: CUB-200-2011, Stanford Cars, and FGVC Aircraft. Also, visualizations and analysis are provided for better understanding.