大規模なデータセットでの視覚と言語の共同モデリングは、最近、単一のモーダル学習と比較した場合、マルチモーダルタスクで良好な進歩を示しています。ただし、実際の摂動に対するこれらのアプローチの堅牢性は研究されていません。この作業では、ビデオと言語に焦点を当てたさまざまな現実世界の摂動に対するそのようなモデルの最初の広範なロバスト性研究を実行します。テキストからビデオへの検索に焦点を当て、90の異なる視覚的摂動と35の異なるテキストの摂動を利用する2つの大規模なベンチマークデータセット、MSRVTT-PとYouCook2-Pを提案します。研究はいくつかの興味深い発見を明らかにします:1)研究されたモデルは、テキストが摂動されたときとビデオが摂動されたときよりもロバストです。 3)2分岐エンコーダーを単独で使用することは、通常、アーキテクチャーがクロスアテンションを使用する場合よりも堅牢です。この研究がベンチマークとして役立ち、堅牢なマルチモーダル学習の将来の研究を導くことを願っています。
Joint visual and language modeling on large-scale datasets has recently shown a good progress in multi-modal tasks when compared to single modal learning. However, robustness of these approaches against real-world perturbations has not been studied. In this work, we perform the first extensive robustness study of such models against various real-world perturbations focusing on video and language. We focus on text-to-video retrieval and propose two large-scale benchmark datasets, MSRVTT-P and YouCook2-P, which utilize 90 different visual and 35 different textual perturbations. The study reveals some interesting findings: 1) The studied models are more robust when text is perturbed versus when video is perturbed 2) The transformer text encoder is more robust on non-semantic changing text perturbations and visual perturbations compared to word embedding approaches. 3) Using two-branch encoders in isolation is typically more robust than when architectures use cross-attention. We hope this study will serve as a benchmark and guide future research in robust multimodal learning.