ディープニューラルネットワークの敵対攻撃は、画像、音声、自然言語、パッチ、およびピクセル分類タスクで集中的に研究されています。それにもかかわらず、典型的な重要な現実世界のアプリケーションとして、カテゴリではなくオブジェクトの移動軌跡を追跡するオンラインビデオオブジェクトトラッキングの敵対攻撃はほとんど調査されません。このホワイトペーパーでは、視覚的な追跡に対する敵対攻撃の新しいタスクを特定します。これは、トラッカーを誤った(Untargeted Attack、UA)または指定された軌道(Targeted Attack、TA)に沿って誤解させる、知覚できない摂動をオンラインで生成します。この目的のために、まず、既存の攻撃方法、つまりFGSM、BIM、およびC&Wを適応させることにより、空間を意識した基本的な攻撃を提案し、攻撃パフォーマンスを包括的に分析します。オンラインオブジェクトトラッキングには、2つの新しい課題があることがわかります。1)フレーム間で転送される知覚できない摂動を生成するのが困難である、2)リアルタイムトラッカーが一定レベルの効率を満たすために攻撃を必要とする。これらの課題に対処するために、オンラインで時空間スパースインクリメンタル摂動を実行し、敵の攻撃を知覚しにくくする空間認識オンラインインクリメンタル攻撃(別名、SPARK)を提案します。さらに、最適化ベースの方法として、SPARKは履歴的な増分摂動を考慮することにより、いくつかの反復内で非常に小さな損失に素早く収束し、基本的な攻撃よりもはるかに効率的にします。 OTB100、VOT2018、UAV123、およびLaSOTでの最新のトラッカー(つまり、AlexNet、MobileNetv2、ResNet-50を使用したSiamRPN ++、およびSiamDW)の詳細な評価は、わずかな摂動を伴うUAとTAの両方のトラッカー。
Adversarial attacks of deep neural networks have been intensively studied on image, audio, natural language, patch, and pixel classification tasks. Nevertheless, as a typical, while important real-world application, the adversarial attacks of online video object tracking that traces an object's moving trajectory instead of its category are rarely explored. In this paper, we identify a new task for the adversarial attack to visual tracking: online generating imperceptible perturbations that mislead trackers along an incorrect (Untargeted Attack, UA) or specified trajectory (Targeted Attack, TA). To this end, we first propose a spatial-aware basic attack by adapting existing attack methods, i.e., FGSM, BIM, and C&W, and comprehensively analyze the attacking performance. We identify that online object tracking poses two new challenges: 1) it is difficult to generate imperceptible perturbations that can transfer across frames, and 2) real-time trackers require the attack to satisfy a certain level of efficiency. To address these challenges, we further propose the spatial-aware online incremental attack (a.k.a. SPARK) that performs spatial-temporal sparse incremental perturbations online and makes the adversarial attack less perceptible. In addition, as an optimization-based method, SPARK quickly converges to very small losses within several iterations by considering historical incremental perturbations, making it much more efficient than basic attacks. The in-depth evaluation on state-of-the-art trackers (i.e., SiamRPN++ with AlexNet, MobileNetv2, and ResNet-50, and SiamDW) on OTB100, VOT2018, UAV123, and LaSOT demonstrates the effectiveness and transferability of SPARK in misleading the trackers under both UA and TA with minor perturbations.