arXiv reaDer
自己監視型トロイの木馬攻撃の謎を解く
Demystifying Self-supervised Trojan Attacks
新しい機械学習パラダイムとして、自己教師あり学習 (SSL) は、データ ラベルなしで複雑なデータの高品質な表現を学習できます。以前の研究では、ラベリングへの依存を回避するだけでなく、SSL は、敵対者がモデル予測を操作することをより困難にすることで、敵対者の堅牢性にもメリットがあることを示しています。ただし、この堅牢性の利点が他のタイプの攻撃に一般化されるかどうかは未解決の問題です。トロイの木馬攻撃のコンテキストでこの問題を調査するために、SSL はトロイの木馬攻撃に対して教師あり学習として比較的脆弱であることを示します。具体的には、非常に単純な自己監視型トロイの木馬攻撃である CTRL を設計および評価します。トレーニング データのごく一部 (1% 未満) を区別できないポイズニング サンプルで汚染することにより、CTRL は、トリガーに埋め込まれた入力を、推論時に高い確率 (99% 以上) で敵対者の目的のクラスに誤分類させます。さらに重要なことは、CTRL のレンズを通して、自己監視型トロイの木馬攻撃の根底にあるメカニズムを研究することです。経験的証拠と分析的証拠の両方を使用して、敵対的な堅牢性に役立つSSLの表現不変性特性が、SSLをトロイの木馬攻撃に対して非常に脆弱にするまさにその理由である可能性があることを明らかにします.さらに、自己監視型トロイの木馬攻撃を防御するための基本的な課題について議論し、将来の研究の有望な方向性を示します。
As an emerging machine learning paradigm, self-supervised learning (SSL) is able to learn high-quality representations for complex data without data labels. Prior work shows that, besides obviating the reliance on labeling, SSL also benefits adversarial robustness by making it more challenging for the adversary to manipulate model prediction. However, whether this robustness benefit generalizes to other types of attacks remains an open question. We explore this question in the context of trojan attacks by showing that SSL is comparably vulnerable as supervised learning to trojan attacks. Specifically, we design and evaluate CTRL, an extremely simple self-supervised trojan attack. By polluting a tiny fraction of training data (less than 1%) with indistinguishable poisoning samples, CTRL causes any trigger-embedded input to be misclassified to the adversary's desired class with a high probability (over 99%) at inference. More importantly, through the lens of CTRL, we study the mechanisms underlying self-supervised trojan attacks. With both empirical and analytical evidence, we reveal that the representation invariance property of SSL, which benefits adversarial robustness, may also be the very reason making SSL highly vulnerable to trojan attacks. We further discuss the fundamental challenges to defending against self-supervised trojan attacks, pointing to promising directions for future research.
updated: Thu Oct 13 2022 20:39:21 GMT+0000 (UTC)
published: Thu Oct 13 2022 20:39:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト