arXiv reaDer
視覚と言語の事前トレーニング済みモデルの堅牢性を詳しく見る
A Closer Look at the Robustness of Vision-and-Language Pre-trained Models
ViLBERTやUNITERなどの大規模な事前トレーニング済みマルチモーダルトランスフォーマーは、視覚と言語(V + L)の研究における最先端技術を新しいレベルに推進しました。標準的なタスクで印象的なパフォーマンスを達成していますが、これまでのところ、これらの事前トレーニング済みモデルがどれほど堅牢であるかは不明です。調査するために、4つの異なるタイプのV + L固有のモデルの堅牢性について、既存の事前トレーニング済みモデルに対して多数の徹底的な評価を実施します。(i)言語の変化。 (ii)論理的推論; (iii)ビジュアルコンテンツの操作。 (iv)回答配布シフト。興味深いことに、標準モデルの微調整により、事前にトレーニングされたV + Lモデルは、多くのタスク固有の最先端の方法よりも優れた堅牢性をすでに示しています。モデルの堅牢性をさらに強化するために、事前にトレーニングされたV + Lモデルをだますために、埋め込みスペースでマルチモーダル敵対ノイズジェネレーターを学習する一般的で効率的なアプローチであるMangoを提案します。ある特定のタイプのロバスト性に焦点を当てた以前の研究とは異なり、Mangoはタスクにとらわれず、ロバスト性の幅広い側面を評価するように設計されたさまざまなタスクにわたって、事前にトレーニングされたモデルのユニバーサルパフォーマンスリフトを可能にします。包括的な実験は、マンゴーが9つの堅牢性ベンチマークのうち7つで新しい最先端を達成し、既存の方法を大幅に上回っていることを示しています。 V + Lの堅牢性に関する最初の包括的な研究として、この作業では、事前にトレーニングされたモデルの堅牢性に焦点を当て、将来の研究の新しい方向性を示します。
Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER, have propelled the state of the art in vision-and-language (V+L) research to a new level. Although achieving impressive performance on standard tasks, to date, it still remains unclear how robust these pre-trained models are. To investigate, we conduct a host of thorough evaluations on existing pre-trained models over 4 different types of V+L specific model robustness: (i) Linguistic Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv) Answer Distribution Shift. Interestingly, by standard model finetuning, pre-trained V+L models already exhibit better robustness than many task-specific state-of-the-art methods. To further enhance model robustness, we propose Mango, a generic and efficient approach that learns a Multimodal Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L models. Differing from previous studies focused on one specific type of robustness, Mango is task-agnostic, and enables universal performance lift for pre-trained models over diverse tasks designed to evaluate broad aspects of robustness. Comprehensive experiments demonstrate that Mango achieves new state of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by a significant margin. As the first comprehensive study on V+L robustness, this work puts robustness of pre-trained models into sharper focus, pointing new directions for future study.
updated: Tue Dec 15 2020 23:41:42 GMT+0000 (UTC)
published: Tue Dec 15 2020 23:41:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト