ビデオの分類は、コンピュータービジョンでは困難な作業です。ディープニューラルネットワーク(DNN)はビデオ分類で優れたパフォーマンスを達成しましたが、最近の研究では、知覚できない摂動をクリーンなビデオに追加すると、十分にトレーニングされたモデルが誤ったラベルを高い信頼性で出力できることが示されています。この論文では、敵対的なビデオを特徴付けて防御するための効果的な防御フレームワークを提案します。提案された方法には、2つのフェーズが含まれます:(1)隣接フレーム間の時間的一貫性を使用した敵対的ビデオ検出、および(2)空間および時間領域でのノイズ除去を介した敵対的摂動低減。具体的には、DNNの線形性により、DNNの深さが増すと感知できない摂動が大きくなり、隣接するフレーム間でDNN出力の一貫性が失われます。ただし、良性のビデオフレームは、わずかな変更のために、多くの場合、隣接するフレームと同じ出力を持ちます。この観察に基づいて、敵対的なビデオと良性のビデオを区別できます。その後、さまざまな攻撃に対してさまざまな防御戦略を利用します。汚染されたフレームを時間的に隣接するクリーンなフレームで再構築する一時的な防御を提案し、まばらな汚染されたフレームを持つ敵対的なビデオに対処します。密集した汚染されたフレームのあるビデオの場合、効率的な敵対ノイズ除去器を使用して空間領域の各フレームを処理し、摂動を浄化します(空間防御と呼びます)。 UCF-101データセットで行われた一連の実験は、提案された方法が敵の攻撃に対するビデオ分類子の堅牢性を大幅に改善することを示しています。
Video classification is a challenging task in computer vision. Although Deep Neural Networks (DNNs) have achieved excellent performance in video classification, recent research shows adding imperceptible perturbations to clean videos can make the well-trained models output wrong labels with high confidence. In this paper, we propose an effective defense framework to characterize and defend adversarial videos. The proposed method contains two phases: (1) adversarial video detection using temporal consistency between adjacent frames, and (2) adversarial perturbation reduction via denoisers in the spatial and temporal domains respectively. Specifically, because of the linear nature of DNNs, the imperceptible perturbations will enlarge with the increasing of DNNs depth, which leads to the inconsistency of DNNs output between adjacent frames. However, the benign video frames often have the same outputs with their neighbor frames owing to the slight changes. Based on this observation, we can distinguish between adversarial videos and benign videos. After that, we utilize different defense strategies against different attacks. We propose the temporal defense, which reconstructs the polluted frames with their temporally neighbor clean frames, to deal with the adversarial videos with sparse polluted frames. For the videos with dense polluted frames, we use an efficient adversarial denoiser to process each frame in the spatial domain, and thus purify the perturbations (we call it as spatial defense). A series of experiments conducted on the UCF-101 dataset demonstrate that the proposed method significantly improves the robustness of video classifiers against adversarial attacks.