arXiv reaDer
進化するモデルにおけるバックドアの永続性について
On the Permanence of Backdoors in Evolving Models
バックドアなどのディープ ニューラル ネットワーク (DNN) に対するトレーニング時間攻撃に関する既存の研究では、モデルは一度トレーニングされると静的であり、モデルにトレーニングされた隠れたバックドアは無期限にアクティブなままであると大部分が想定されています。実際には、モデルが静的になることはめったにありませんが、基礎となるデータの分布ドリフトに対処するために継続的に進化します。このホワイト ペーパーでは、時変モデルにおけるバックドア攻撃の動作を調査します。このモデルの重みは、微調整によって継続的に更新され、データのドリフトに適応します。私たちの理論的分析は、新しいデータを使用した微調整が、注入されたバックドアを徐々に「消去」する方法を示し、経験的研究は、さまざまなトレーニングと攻撃の設定の下で、時間によって変化するモデルがバックドアを「忘れる」速さを示しています。また、スマートな学習率を使用した新しい微調整戦略が、バックドアの忘却を大幅に加速できることも示しています。最後に、特に時変モデルを対象とする新しいバックドア防御の必要性について説明します。
Existing research on training-time attacks for deep neural networks (DNNs), such as backdoors, largely assume that models are static once trained, and hidden backdoors trained into models remain active indefinitely. In practice, models are rarely static but evolve continuously to address distribution drifts in the underlying data. This paper explores the behavior of backdoor attacks in time-varying models, whose model weights are continually updated via fine-tuning to adapt to data drifts. Our theoretical analysis shows how fine-tuning with fresh data progressively "erases" the injected backdoors, and our empirical study illustrates how quickly a time-varying model "forgets" backdoors under a variety of training and attack settings. We also show that novel fine-tuning strategies using smart learning rates can significantly accelerate backdoor forgetting. Finally, we discuss the need for new backdoor defenses that target time-varying models specifically.
updated: Wed Feb 08 2023 23:19:26 GMT+0000 (UTC)
published: Wed Jun 08 2022 01:32:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト