arXiv reaDer
視覚認識のための敵対的特徴の増強と正規化
Adversarial Feature Augmentation and Normalization for Visual Recognition
コンピュータビジョンの最近の進歩は、分類モデルの一般化能力を改善するために敵対的なデータ増強を利用しています。ここでは、計算コストの高いピクセルレベルの摂動に依存する代わりに、中間の特徴の埋め込みで敵対的な増強を提唱する効果的かつ効率的な代替案を提示します。敵対的特徴増強および正規化(A-FAN)を提案します。これは、(i)摂動強度の柔軟なスケールを統合する敵対的特徴で視覚認識モデルを最初に増強し、(ii)次に、バッチ正規化から敵対的特徴統計を抽出し、それらを再注入します。機能の正規化を通じてクリーンな機能に変換します。分類用のResNetsとEfficientNets、検出用のFaster-RCNN、セグメンテーション用のDeeplab V3 +など、代表的なバックボーンネットワークを使用して、さまざまな視覚認識タスクにわたって提案されたアプローチを検証します。広範な実験により、A-FANは、CIFAR-10、CIFAR-100、ImageNet、Pascal VOC2007、Pascal VOC2012、COCO2017、Cityspacesなどの分類、検出、およびセグメンテーションタスクのさまざまなデータセットにわたって、強力なベースラインに対して一貫した一般化の改善をもたらすことが示されています。包括的なアブレーション研究と詳細な分析により、特定のモジュールと分類/検出/セグメンテーションバックボーンのレイヤーに摂動を追加すると、最適なパフォーマンスが得られることも示されています。コードと事前トレーニング済みモデルは、https://github.com/VITA-Group/CV_A-FANで入手できます。
Recent advances in computer vision take advantage of adversarial data augmentation to ameliorate the generalization ability of classification models. Here, we present an effective and efficient alternative that advocates adversarial augmentation on intermediate feature embeddings, instead of relying on computationally-expensive pixel-level perturbations. We propose Adversarial Feature Augmentation and Normalization (A-FAN), which (i) first augments visual recognition models with adversarial features that integrate flexible scales of perturbation strengths, (ii) then extracts adversarial feature statistics from batch normalization, and re-injects them into clean features through feature normalization. We validate the proposed approach across diverse visual recognition tasks with representative backbone networks, including ResNets and EfficientNets for classification, Faster-RCNN for detection, and Deeplab V3+ for segmentation. Extensive experiments show that A-FAN yields consistent generalization improvement over strong baselines across various datasets for classification, detection and segmentation tasks, such as CIFAR-10, CIFAR-100, ImageNet, Pascal VOC2007, Pascal VOC2012, COCO2017, and Cityspaces. Comprehensive ablation studies and detailed analyses also demonstrate that adding perturbations to specific modules and layers of classification/detection/segmentation backbones yields optimal performance. Codes and pre-trained models will be made available at: https://github.com/VITA-Group/CV_A-FAN.
updated: Mon Mar 22 2021 20:36:34 GMT+0000 (UTC)
published: Mon Mar 22 2021 20:36:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト