敵の攻撃に対するモデルの堅牢性を向上させるために、特徴散乱に基づく敵対者のトレーニングアプローチを導入します。従来の敵対的トレーニング手法は、トレーニング用の攻撃を生成する際に監視対象スキーム(ターゲットまたは非ターゲット)を活用しますが、通常、最近の研究で指摘されているラベルリークなどの問題があります。別の方法として、提案されたアプローチは、潜在空間での特徴散乱を通じてトレーニング用の敵対画像を生成します。これは、本質的に監視されておらず、ラベルの漏れを防ぎます。さらに重要なことは、この新しいアプローチは、サンプル間の関係を考慮して、協調的な方法で摂動画像を生成します。モデルの堅牢性に関する分析を実施し、最新のアプローチと比較してさまざまなデータセットでの広範な実験を通じて、提案されたアプローチの有効性を実証します。
We introduce a feature scattering-based adversarial training approach for improving model robustness against adversarial attacks. Conventional adversarial training approaches leverage a supervised scheme (either targeted or non-targeted) in generating attacks for training, which typically suffer from issues such as label leaking as noted in recent works. Differently, the proposed approach generates adversarial images for training through feature scattering in the latent space, which is unsupervised in nature and avoids label leaking. More importantly, this new approach generates perturbed images in a collaborative fashion, taking the inter-sample relationships into consideration. We conduct analysis on model robustness and demonstrate the effectiveness of the proposed approach through extensively experiments on different datasets compared with state-of-the-art approaches.