arXiv reaDer
SIM-Trans: 細粒度の視覚的分類のための構造情報モデリング トランスフォーマー
SIM-Trans: Structure Information Modeling Transformer for Fine-grained Visual Categorization
きめの細かい視覚的分類 (FGVC) は、類似の下位カテゴリからオブジェクトを認識することを目的としています。これは、人間の正確な自動認識のニーズにとって挑戦的で実用的です。ほとんどの FGVC アプローチは、モデルの識別情報のローカリゼーションと理解能力に不可欠な相互依存性と構成された全体的なオブジェクト構造を無視しながら、識別領域マイニングの注意メカニズム研究に焦点を当てています。上記の制限に対処するために、構造情報モデリングトランスフォーマー(SIM-Trans)を提案して、オブジェクト構造情報をトランスフォーマーに組み込み、識別表現学習を強化して外観情報と構造情報の両方を含めるようにします。具体的には、画像を一連のパッチ トークンにエンコードし、適切に設計された 2 つのモジュールを使用して強力なビジョン トランスフォーマー フレームワークを構築します。構造情報をインポートするためにモデルにさらに注入される、トランスフォーマーの自己注意重みの助けを借りたオブジェクト範囲。 (ii)マルチレベル機能ブースティング(MFB)モジュールが導入され、マルチレベル機能の補完とクラス間の対照的な学習を活用して、正確な認識のための機能の堅牢性を強化します。提案された 2 つのモジュールは軽量で、任意のトランスフォーマー ネットワークにプラグインでき、エンドツーエンドで簡単にトレーニングできます。これは、ビジョン トランスフォーマー自体に付属するアテンション ウェイトのみに依存します。広範な実験と分析により、提案された SIM-Trans が、きめの細かい視覚的分類ベンチマークで最先端のパフォーマンスを達成することが実証されています。コードは https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022 で入手できます。
Fine-grained visual categorization (FGVC) aims at recognizing objects from similar subordinate categories, which is challenging and practical for human's accurate automatic recognition needs. Most FGVC approaches focus on the attention mechanism research for discriminative regions mining while neglecting their interdependencies and composed holistic object structure, which are essential for model's discriminative information localization and understanding ability. To address the above limitations, we propose the Structure Information Modeling Transformer (SIM-Trans) to incorporate object structure information into transformer for enhancing discriminative representation learning to contain both the appearance information and structure information. Specifically, we encode the image into a sequence of patch tokens and build a strong vision transformer framework with two well-designed modules: (i) the structure information learning (SIL) module is proposed to mine the spatial context relation of significant patches within the object extent with the help of the transformer's self-attention weights, which is further injected into the model for importing structure information; (ii) the multi-level feature boosting (MFB) module is introduced to exploit the complementary of multi-level features and contrastive learning among classes to enhance feature robustness for accurate recognition. The proposed two modules are light-weighted and can be plugged into any transformer network and trained end-to-end easily, which only depends on the attention weights that come with the vision transformer itself. Extensive experiments and analyses demonstrate that the proposed SIM-Trans achieves state-of-the-art performance on fine-grained visual categorization benchmarks. The code is available at https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022.
updated: Wed Aug 31 2022 03:00:07 GMT+0000 (UTC)
published: Wed Aug 31 2022 03:00:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト