arXiv reaDer
視覚および言語摂動に対するビデオ言語モデルのロバスト性分析
Robustness Analysis of Video-Language Models Against Visual and Language Perturbations
大規模なデータセットでの視覚と言語の共同モデリングは、最近、単一モーダル学習と比較して、マルチモーダル タスクで優れた進歩を示しています。ただし、現実世界の摂動に対するこれらのアプローチの堅牢性は研究されていません。この作業では、さまざまな現実世界の摂動に対するビデオ言語モデルの最初の広範なロバスト性研究を実行します。テキストからビデオへの検索に焦点を当て、2 つの大規模なベンチマーク データセット、MSRVTT-P と YouCook2-P を提案します。これらは、90 の異なる視覚的摂動と 35 の異なるテキスト摂動を利用します。この調査では、調査したモデルからいくつかの興味深い初期の発見が明らかになりました。1) モデルは、ビデオが乱れた場合よりもテキストが乱れた場合により堅牢である、2) 事前にトレーニングされたモデルは、ゼロからトレーニングされたモデルよりも堅牢である、3) モデルはより多くのイベントに参加する動きやアクションではなく、シーンやオブジェクトに。この研究がベンチマークとして役立ち、堅牢なビデオ言語学習の将来の研究を導くことを願っています.この調査で導入されたベンチマークとコードおよびデータセットは、https://bit.ly/3CNOly4 で入手できます。
Joint visual and language modeling on large-scale datasets has recently shown good progress in multi-modal tasks when compared to single modal learning. However, robustness of these approaches against real-world perturbations has not been studied. In this work, we perform the first extensive robustness study of video-language models against various real-world perturbations. We focus on text-to-video retrieval and propose two large-scale benchmark datasets, MSRVTT-P and YouCook2-P, which utilize 90 different visual and 35 different text perturbations. The study reveals some interesting initial findings from the studied models: 1) models are more robust when text is perturbed versus when video is perturbed, 2) models that are pre-trained are more robust than those trained from scratch, 3) models attend more to scene and objects rather than motion and action. We hope this study will serve as a benchmark and guide future research in robust video-language learning. The benchmark introduced in this study along with the code and datasets is available at https://bit.ly/3CNOly4.
updated: Fri Oct 21 2022 00:18:50 GMT+0000 (UTC)
published: Tue Jul 05 2022 16:26:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト