カテゴリ間の類似性が高く、1 つのカテゴリ内のデータ間に明確な違いがあるため、きめの細かい視覚的分類は困難な作業です。課題に対処するために、以前の戦略は、カテゴリ間の微妙な不一致をローカライズし、それらの識別機能を強化することに重点を置いてきました。ただし、バックグラウンドは、どの機能が分類に不要または有害であるかをモデルに伝えることができる重要な情報も提供します。微妙な機能に過度に依存しているモデルは、グローバルな機能とコンテキスト情報を見落とす可能性があります。この論文では、識別機能を抽出し、バックグラウンドノイズをそれぞれ抑制します。高温洗練モジュールにより、モデルはさまざまなスケールで特徴マップを洗練し、さまざまな特徴の学習を改善することにより、適切な特徴スケールを学習できます。また、背景抑制モジュールは、最初に分類信頼スコアを使用して特徴マップを前景と背景に分割し、識別機能を強化しながら信頼性の低い領域の特徴値を抑制します。実験結果は、提案された HERBS がさまざまなスケールの特徴を効果的に融合し、バックグラウンド ノイズを抑制し、きめの細かい視覚的分類のための適切なスケールでの識別機能を効果的に融合することを示しています。提案された方法は、CUB-200-2011 で最先端のパフォーマンスを実現します。および NABirds ベンチマークで、両方のデータセットで 93% の精度を超えています。したがって、HERBS は、きめの細かい視覚的分類タスクのパフォーマンスを向上させるための有望なソリューションを提供します。コード: https://github.com/chou141253/FGVC-HERBS
Fine-grained visual classification is a challenging task due to the high similarity between categories and distinct differences among data within one single category. To address the challenges, previous strategies have focused on localizing subtle discrepancies between categories and enhencing the discriminative features in them. However, the background also provides important information that can tell the model which features are unnecessary or even harmful for classification, and models that rely too heavily on subtle features may overlook global features and contextual information. In this paper, we propose a novel network called ``High-temperaturE Refinement and Background Suppression'' (HERBS), which consists of two modules, namely, the high-temperature refinement module and the background suppression module, for extracting discriminative features and suppressing background noise, respectively. The high-temperature refinement module allows the model to learn the appropriate feature scales by refining the features map at different scales and improving the learning of diverse features. And, the background suppression module first splits the features map into foreground and background using classification confidence scores and suppresses feature values in low-confidence areas while enhancing discriminative features. The experimental results show that the proposed HERBS effectively fuses features of varying scales, suppresses background noise, discriminative features at appropriate scales for fine-grained visual classification.The proposed method achieves state-of-the-art performance on the CUB-200-2011 and NABirds benchmarks, surpassing 93% accuracy on both datasets. Thus, HERBS presents a promising solution for improving the performance of fine-grained visual classification tasks. code: https://github.com/chou141253/FGVC-HERBS