arXiv reaDer
きめ細かい分類のためのビジョントランスフォーマーの調査
Exploring Vision Transformers for Fine-grained Classification
分類における既存のコンピュータビジョン研究は、本質的に高いクラス内分散と低いクラス間分散のために、きめ細かい属性認識に苦労しています。 SOTAメソッドは、最も有益な画像領域を特定し、それらに依存して完全な画像を分類することにより、この課題に取り組みます。最新の作品であるVisionTransformer(ViT)は、従来の分類タスクときめ細かい分類タスクの両方でその強力なパフォーマンスを示しています。この作業では、固有のマルチヘッド自己注意メカニズムを使用してアーキテクチャの変更を必要とせずに有益な画像領域をローカライズする、きめ細かい画像分類タスクのための多段階ViTフレームワークを提案します。また、モデルの機能を向上させるための注意ガイド付き拡張機能も紹介します。 4つの人気のあるきめ細かいベンチマーク、CUB-200-2011、Stanford Cars、Stanford Dogs、およびFGVC7 Plant Pathologyを実験することにより、このアプローチの価値を示します。また、定性的な結果を通じてモデルの解釈可能性を証明します。
Existing computer vision research in categorization struggles with fine-grained attributes recognition due to the inherently high intra-class variances and low inter-class variances. SOTA methods tackle this challenge by locating the most informative image regions and rely on them to classify the complete image. The most recent work, Vision Transformer (ViT), shows its strong performance in both traditional and fine-grained classification tasks. In this work, we propose a multi-stage ViT framework for fine-grained image classification tasks, which localizes the informative image regions without requiring architectural changes using the inherent multi-head self-attention mechanism. We also introduce attention-guided augmentations for improving the model's capabilities. We demonstrate the value of our approach by experimenting with four popular fine-grained benchmarks: CUB-200-2011, Stanford Cars, Stanford Dogs, and FGVC7 Plant Pathology. We also prove our model's interpretability via qualitative results.
updated: Sat Jun 19 2021 23:57:31 GMT+0000 (UTC)
published: Sat Jun 19 2021 23:57:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト