arXiv reaDer
現実的なグレーボックス仮定の下でのマルチモーダルモデルの敵対的評価
Adversarial Evaluation of Multimodal Models under Realistic Gray Box Assumption
この作業では、マルチモーダル(画像+テキスト)モデルの、ユニモーダル(画像またはテキストのみ)モデルに関する以前の文献で説明されているものと同様の敵対的な脅威に対する脆弱性を調べます。部分的なモデルの知識とアクセスの現実的な仮定を紹介し、これらの仮定が、敵対的攻撃に関する現在の文献で一般的な標準の「ブラックボックス」/「ホワイトボックス」の二分法とどのように異なるかについて説明します。これらの「グレーボックス」の仮定のさまざまなレベルで作業し、マルチモーダル分類に固有の新しい攻撃方法を開発し、Hateful MemesChallenge分類タスクでそれらを評価します。複数のモダリティを攻撃すると、ユニモーダル攻撃のみよりも強力な攻撃が発生し(ケースの最大73%でエラーが発生します)、調査したマルチモーダル分類子に対するユニモーダル画像攻撃は、文字ベースのテキスト拡張攻撃よりも強力であることがわかりました(平均してエラーが発生します)。それぞれ45%と30%のケースで)。
This work examines the vulnerability of multimodal (image + text) models to adversarial threats similar to those discussed in previous literature on unimodal (image- or text-only) models. We introduce realistic assumptions of partial model knowledge and access, and discuss how these assumptions differ from the standard "black-box"/"white-box" dichotomy common in current literature on adversarial attacks. Working under various levels of these "gray-box" assumptions, we develop new attack methodologies unique to multimodal classification and evaluate them on the Hateful Memes Challenge classification task. We find that attacking multiple modalities yields stronger attacks than unimodal attacks alone (inducing errors in up to 73% of cases), and that the unimodal image attacks on multimodal classifiers we explored were stronger than character-based text augmentation attacks (inducing errors on average in 45% and 30% of cases, respectively).
updated: Thu Nov 26 2020 09:03:45 GMT+0000 (UTC)
published: Wed Nov 25 2020 17:37:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト