arXiv reaDer
Adversarial Attack on Skeleton-based Human Action Recognition
  ディープラーニングモデルは、スケルトンベースの人間の行動認識の印象的なパフォーマンスを実現します。ただし、これらのモデルの敵対攻撃に対する堅牢性は、スパースで離散的なスケルトンジョイントを表す必要がある複雑な時空間的性質のため、ほとんど未調査のままです。この作業は、グラフ畳み込みネットワークを使用したスケルトンベースのアクション認識に対する最初の敵対攻撃を示しています。提案された標的型攻撃は、スケルトンアクションの制約付き反復攻撃(CIASA)と呼ばれ、結果として得られる敵のシーケンスがスケルトンの時間的一貫性、空間的整合性、および擬人化された妥当性を維持するように、アクションシーケンスのジョイント位置を摂動します。 CIASAは、複数の物理的制約を満たし、生成されたネットワークを使用した敵対的スケルトンの正則化とともに、摂動スケルトンの空間スケルトン再配置を採用することで、この偉業を達成します。また、CIASAを使用した意味的に知覚できない局所攻撃の可能性を調査し、最新のスケルトンアクション認識モデルを高い信頼度でだまします。 CIASA摂動は、ブラックボックス攻撃の高い転送可能性を示しています。また、摂動スケルトンシーケンスは、コンピューターグラフィックスで作成されたRGBビデオに敵対的な行動を誘発できることも示しています。 NTUおよびKineticsデータセットを使用した包括的な評価により、グラフベースのスケルトンアクション認識に対するCIASAの有効性が確認され、一般的な時空間ディープラーニングタスクに対する差し迫った脅威が明らかになります。
Deep learning models achieve impressive performance for skeleton-based human action recognition. However, the robustness of these models to adversarial attacks remains largely unexplored due to their complex spatio-temporal nature that must represent sparse and discrete skeleton joints. This work presents the first adversarial attack on skeleton-based action recognition with graph convolutional networks. The proposed targeted attack, termed Constrained Iterative Attack for Skeleton Actions (CIASA), perturbs joint locations in an action sequence such that the resulting adversarial sequence preserves the temporal coherence, spatial integrity, and the anthropomorphic plausibility of the skeletons. CIASA achieves this feat by satisfying multiple physical constraints, and employing spatial skeleton realignments for the perturbed skeletons along with regularization of the adversarial skeletons with Generative networks. We also explore the possibility of semantically imperceptible localized attacks with CIASA, and succeed in fooling the state-of-the-art skeleton action recognition models with high confidence. CIASA perturbations show high transferability for black-box attacks. We also show that the perturbed skeleton sequences are able to induce adversarial behavior in the RGB videos created with computer graphics. A comprehensive evaluation with NTU and Kinetics datasets ascertains the effectiveness of CIASA for graph-based skeleton action recognition and reveals the imminent threat to the spatio-temporal deep learning tasks in general.
updated: Sat Sep 14 2019 01:44:44 GMT+0000 (UTC)
published: Sat Sep 14 2019 01:44:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト