画像分類モデルと比較した場合、ビデオ分類モデルに対するブラックボックスの敵対的攻撃はほとんど研究されていません。これが可能なのは、ビデオの場合、時間的次元が勾配推定において重要な追加の課題をもたらすためです。クエリ効率の高いブラックボックス攻撃は、ターゲットビデオを誤分類する可能性を最大化するために、効果的に推定された勾配に依存しています。この作業では、幾何学的変換を使用して検索空間の時間的構造をパラメータ化することにより、このような効果的な勾配を検索できることを示します。具体的には、ビデオ分類モデルを攻撃するための新しい反復アルゴリズムGeometric TRAnsformed Perturbations(GEO-TRAP)を設計します。 GEO-TRAPは、標準の幾何学的変換操作を使用して、効果的な勾配の検索スペースを減らし、これらの操作を定義するパラメーターの小さなグループを検索します。このパラメーターのグループは、勾配の等比数列を記述し、結果として検索スペースが縮小され、構造化されます。私たちのアルゴリズムは本質的に、驚くほど少ないクエリで摂動を成功させます。たとえば、GEO-TRAPから生成された敵対的な例は、広く使用されているJesterデータセットに対する最新のビデオ敵対的攻撃の方法と比較して、クエリの数が最大73.55%少なく、攻撃の成功率が高くなっています。全体として、私たちのアルゴリズムは、さまざまなビデオ分類モデルの脆弱性を明らかにし、2つの大きなデータセットのブラックボックス設定の下で新しい最先端の結果を実現します。コードはこちらから入手できます:https://github.com/sli057/Geo-TRAP
When compared to the image classification models, black-box adversarial attacks against video classification models have been largely understudied. This could be possible because, with video, the temporal dimension poses significant additional challenges in gradient estimation. Query-efficient black-box attacks rely on effectively estimated gradients towards maximizing the probability of misclassifying the target video. In this work, we demonstrate that such effective gradients can be searched for by parameterizing the temporal structure of the search space with geometric transformations. Specifically, we design a novel iterative algorithm Geometric TRAnsformed Perturbations (GEO-TRAP), for attacking video classification models. GEO-TRAP employs standard geometric transformation operations to reduce the search space for effective gradients into searching for a small group of parameters that define these operations. This group of parameters describes the geometric progression of gradients, resulting in a reduced and structured search space. Our algorithm inherently leads to successful perturbations with surprisingly few queries. For example, adversarial examples generated from GEO-TRAP have better attack success rates with ~73.55% fewer queries compared to the state-of-the-art method for video adversarial attacks on the widely used Jester dataset. Overall, our algorithm exposes vulnerabilities of diverse video classification models and achieves new state-of-the-art results under black-box settings on two large datasets. Code is available here: https://github.com/sli057/Geo-TRAP