この作業では、DINOを使用してトレーニングされた自己監視型VisionTransformerに対する敵対的な攻撃に対する堅牢性に関する最初の分析を行います。まず、自己監視によって学習された機能が、教師あり学習から出現した機能よりも敵対的な攻撃に対して堅牢であるかどうかを評価します。次に、潜在空間での攻撃に対して発生するプロパティを示します。最後に、3つのよく知られた防御戦略が、限られたコンピューティングリソースの観点からもロバスト性を提供するように分類ヘッドを微調整するだけで、ダウンストリームタスクの敵対的なロバスト性を高めることができるかどうかを評価します。これらの防御戦略は、敵対的訓練、アンサンブル敵対的訓練、および特殊ネットワークのアンサンブルです。
This work conducts the first analysis on the robustness against adversarial attacks on self-supervised Vision Transformers trained using DINO. First, we evaluate whether features learned through self-supervision are more robust to adversarial attacks than those emerging from supervised learning. Then, we present properties arising for attacks in the latent space. Finally, we evaluate whether three well-known defense strategies can increase adversarial robustness in downstream tasks by only fine-tuning the classification head to provide robustness even in view of limited compute resources. These defense strategies are: Adversarial Training, Ensemble Adversarial Training and Ensemble of Specialized Networks.