StyleFool: スタイル転送によるビデオ分類システムの欺瞞
StyleFool: Fooling Video Classification Systems via Style Transfer
ビデオ分類システムは敵対的攻撃に対して脆弱であり、ビデオ検証で重大なセキュリティ問題を引き起こす可能性があります。現在のブラックボックス攻撃は、成功するために多数のクエリを必要とするため、攻撃の過程で計算上のオーバーヘッドが高くなります。一方、摂動が制限された攻撃は、ノイズ除去や敵対的トレーニングなどの防御に対しては効果がありません。このホワイトペーパーでは、無制限の摂動に焦点を当て、StyleFool を提案します。StyleFool は、スタイル転送を介したブラックボックス ビデオ敵対的攻撃であり、ビデオ分類システムをだますことができます。 StyleFool は、まずカラー テーマの近接性を利用して最適なスタイル イメージを選択します。これにより、スタイル化されたビデオの不自然なディテールを回避できます。一方、標的クラスの信頼性は、標的型攻撃でさらに考慮され、定型化されたビデオを決定境界に近づけたり、境界を越えたりすることで、分類子の出力分布に影響を与えます。次に、勾配のない方法を使用して、敵対的摂動をさらに最適化します。 UCF-101 と HMDB-51 の 2 つの標準データセットで StyleFool を評価するための広範な実験を行います。実験結果は、クエリの数と既存の防御に対する堅牢性の両方の点で、StyleFool が最先端の敵対的攻撃よりも優れていることを示しています。さらに、非標的型攻撃の定型化されたビデオの 50% は、ビデオ分類モデルをだますことができるため、クエリを必要としません。さらに、ユーザー調査を通じて識別不能性を評価し、無制限の摂動にもかかわらず、StyleFool の敵対的サンプルが人間の目には知覚できないように見えることを示します。
Video classification systems are vulnerable to adversarial attacks, which can create severe security problems in video verification. Current black-box attacks need a large number of queries to succeed, resulting in high computational overhead in the process of attack. On the other hand, attacks with restricted perturbations are ineffective against defenses such as denoising or adversarial training. In this paper, we focus on unrestricted perturbations and propose StyleFool, a black-box video adversarial attack via style transfer to fool the video classification system. StyleFool first utilizes color theme proximity to select the best style image, which helps avoid unnatural details in the stylized videos. Meanwhile, the target class confidence is additionally considered in targeted attacks to influence the output distribution of the classifier by moving the stylized video closer to or even across the decision boundary. A gradient-free method is then employed to further optimize the adversarial perturbations. We carry out extensive experiments to evaluate StyleFool on two standard datasets, UCF-101 and HMDB-51. The experimental results demonstrate that StyleFool outperforms the state-of-the-art adversarial attacks in terms of both the number of queries and the robustness against existing defenses. Moreover, 50% of the stylized videos in untargeted attacks do not need any query since they can already fool the video classification model. Furthermore, we evaluate the indistinguishability through a user study to show that the adversarial samples of StyleFool look imperceptible to human eyes, despite unrestricted perturbations.
updated: Mon Apr 01 2024 05:51:31 GMT+0000 (UTC)
published: Wed Mar 30 2022 02:18:16 GMT+0000 (UTC)
