On the Robustness of Human Pose Estimation
この論文は、人間の姿勢推定モデルに対する敵対的攻撃とそのロバスト性の評価に関する包括的かつ徹底的な研究を提供します。よく研究された分類と敵対者の攻撃による人間のポーズ推定システムの重要な違いを強調することに加えて、将来の作業を形作るためのポーズ推定システムの設計上の選択についての深い洞察も提供します。複数のデータセット、MPIIおよびCOCOでトレーニングされたいくつかの2D独身ポーズ推定アーキテクチャの堅牢性をベンチマークします。そうすることで、過去に事実上未踏であった回帰ベースのネットワークを含む非分類ネットワークを攻撃する問題も調査します。 \ par分類やセマンティックセグメンテーションと比較して、人間の姿勢推定アーキテクチャは敵対的な攻撃に対して比較的堅牢であり、シングルステップ攻撃は驚くほど効果がないことがわかりました。私たちの研究では、ヒートマップ ベースの姿勢推定モデルは、直接回帰ベースのシステムよりも著しく堅牢であり、人体の擬人化セマンティクスを明示的にモデル化するシステムは、他のモデルよりも優れていることが示されています。その上、標的型攻撃は非標的型攻撃よりも入手が難しく、一部のボディジョイントは他のジョイントよりもだまされやすいです。ポーズ推定に関する彼らの働きへの前例のない洞察を容易にするために、普遍的な摂動の視覚化を提示します。さらに、さまざまなネットワーク間で適切に一般化することを示します。最後に、これらの例の知覚可能性に関するユーザー調査を実行します。
This paper provides a comprehensive and exhaustive study of adversarial attacks on human pose estimation models and the evaluation of their robustness. Besides highlighting the important differences between well-studied classification and human pose-estimation systems w.r.t. adversarial attacks, we also provide deep insights into the design choices of pose-estimation systems to shape future work. We benchmark the robustness of several 2D single person pose-estimation architectures trained on multiple datasets, MPII and COCO. In doing so, we also explore the problem of attacking non-classification networks including regression based networks, which has been virtually unexplored in the past. \par We find that compared to classification and semantic segmentation, human pose estimation architectures are relatively robust to adversarial attacks with the single-step attacks being surprisingly ineffective. Our study shows that the heatmap-based pose-estimation models are notably robust than their direct regression-based systems and that the systems which explicitly model anthropomorphic semantics of human body fare better than their other counterparts. Besides, targeted attacks are more difficult to obtain than un-targeted ones and some body-joints are easier to fool than the others. We present visualizations of universal perturbations to facilitate unprecedented insights into their workings on pose-estimation. Additionally, we show them to generalize well across different networks. Finally we perform a user study about perceptibility of these examples.
updated: Thu Jun 10 2021 05:27:07 GMT+0000 (UTC)
published: Sun Aug 18 2019 09:04:26 GMT+0000 (UTC)
