Semantically Distributed Robust Optimization for Vision-and-Language Inference
視覚と言語のモデルの分析により、言い換え、否定、テキスト含意、同義語や反意語による単語の置換などの言語現象の下での脆弱性が明らかになりました。データ拡張技術はこれらの障害モードを軽減するように設計されていますが、この知識をトレーニングパイプラインに統合できる方法はまだ十分に検討されていません。この論文では、分散ロバスト最適化設定で設定された言語変換を利用するモデルにとらわれない方法であるSDROと、推論中にこれらの変換を活用するアンサンブル手法を紹介します。画像(NLVR ^ 2)とビデオ(VIOLIN)を使用したベンチマークデータセットでの実験は、パフォーマンスの向上と、敵対的な攻撃に対する堅牢性を示しています。バイナリVQAの実験では、この方法を他のV \&Lタスクに一般化できるかどうかを調べます。
Analysis of vision-and-language models has revealed their brittleness under linguistic phenomena such as paraphrasing, negation, textual entailment, and word substitutions with synonyms or antonyms. While data augmentation techniques have been designed to mitigate against these failure modes, methods that can integrate this knowledge into the training pipeline remain under-explored. In this paper, we present SDRO, a model-agnostic method that utilizes a set linguistic transformations in a distributed robust optimization setting, along with an ensembling technique to leverage these transformations during inference. Experiments on benchmark datasets with images (NLVR^2) and video (VIOLIN) demonstrate performance improvements as well as robustness to adversarial attacks. Experiments on binary VQA explore the generalizability of this method to other V\&L tasks.
updated: Thu Oct 14 2021 06:02:46 GMT+0000 (UTC)
published: Thu Oct 14 2021 06:02:46 GMT+0000 (UTC)
