arXiv reaDer
SNEAK:自然言語のビデオローカリゼーションに対する同義の文を意識した敵対的攻撃
SNEAK: Synonymous Sentences-Aware Adversarial Attack on Natural Language Video Localization
自然言語ビデオローカリゼーション(NLVL)は、視覚言語理解の分野における重要なタスクであり、コンピュータービジョンと自然言語の側面だけでなく、さらに重要なことに、両者間の相互作用を深く理解する必要があります。敵対的な脆弱性は、慎重な調査を必要とするディープニューラルネットワークモデルの重大なセキュリティ問題としてよく認識されています。ビデオと言語のタスクにおけるその広範囲であるが分離された研究にもかかわらず、NLVLのような視覚と言語の共同タスクにおける敵対的な頑健性の現在の理解はあまり発達していません。したがって、このペーパーは、攻撃と防御の両方の側面から脆弱性の3つの側面を調べることにより、NLVLモデルの敵対的な堅牢性を包括的に調査することを目的としています。攻撃の目標を達成するために、同義の文を意識したNLVLに対する敵対的攻撃(SNEAK)と呼ばれる新しい敵対的攻撃パラダイムを提案します。これは、ビジョン側と言語側の間のクロスモダリティ相互作用をキャプチャします。
Natural language video localization (NLVL) is an important task in the vision-language understanding area, which calls for an in-depth understanding of not only computer vision and natural language side alone, but more importantly the interplay between both sides. Adversarial vulnerability has been well-recognized as a critical security issue of deep neural network models, which requires prudent investigation. Despite its extensive yet separated studies in video and language tasks, current understanding of the adversarial robustness in vision-language joint tasks like NLVL is less developed. This paper therefore aims to comprehensively investigate the adversarial robustness of NLVL models by examining three facets of vulnerabilities from both attack and defense aspects. To achieve the attack goal, we propose a new adversarial attack paradigm called synonymous sentences-aware adversarial attack on NLVL (SNEAK), which captures the cross-modality interplay between the vision and language sides.
updated: Wed Dec 08 2021 07:54:03 GMT+0000 (UTC)
published: Wed Dec 08 2021 07:54:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト