Seeing past words: Testing the cross-modal capabilities of pretrained V&L models on counting tasks
マルチモーダル統合を必要とする2つのタスクで事前トレーニングされた視覚と言語(V&L)モデルの推論能力を調査します:(1)正しい画像と文のペアを誤ったものから区別することと(2)画像内のエンティティを数えること。これらのタスクについて、事前にトレーニングされた3つのV&Lモデル、ViLBERT、ViLBERT 12-in-1、およびLXMERTを、ゼロショットおよび微調整された設定で評価します。すべてのモデルがタスク(1)で事前トレーニングされているため、モデルは予想どおりタスク(1)を非常によく解決することがわかりました。ただし、事前にトレーニングされたV&Lモデルはいずれも、カウントプローブであるタスク(2)を適切に解決できず、分布外の量に一般化することはできません。これらの調査結果について、いくつかの説明を提案します。LXMERT(およびある程度ViLBERT 12-in-1)は、タスク(1)で壊滅的な忘却の証拠を示しています。カウントプローブの結果に関しては、すべてのモデルがデータセットバイアスの影響を受けており、視覚入力内のエンティティを個別化できないという証拠が見つかりました。事前にトレーニングされたV&Lモデルのセールスポイントは、複雑なタスクを解決する能力ですが、私たちの調査結果は、それらの推論および接地能力を理解するには、特定の現象についてより的を絞った調査が必要であることを示唆しています。
We investigate the reasoning ability of pretrained vision and language (V&L) models in two tasks that require multimodal integration: (1) discriminating a correct image-sentence pair from an incorrect one, and (2) counting entities in an image. We evaluate three pretrained V&L models on these tasks: ViLBERT, ViLBERT 12-in-1 and LXMERT, in zero-shot and finetuned settings. Our results show that models solve task (1) very well, as expected, since all models are pretrained on task (1). However, none of the pretrained V&L models is able to adequately solve task (2), our counting probe, and they cannot generalise to out-of-distribution quantities. We propose a number of explanations for these findings: LXMERT (and to some extent ViLBERT 12-in-1) show some evidence of catastrophic forgetting on task (1). Concerning our results on the counting probe, we find evidence that all models are impacted by dataset bias, and also fail to individuate entities in the visual input. While a selling point of pretrained V&L models is their ability to solve complex tasks, our findings suggest that understanding their reasoning and grounding capabilities requires more targeted investigations on specific phenomena.
updated: Thu Jun 17 2021 17:51:56 GMT+0000 (UTC)
published: Tue Dec 22 2020 21:01:44 GMT+0000 (UTC)
