最近の視覚言語の事前トレーニング済みモデルは、画像検索やビデオ キャプションなどのさまざまな最終タスクで有望な進歩を示しています。しかし、最近提案された Winoground データセットでは、モデルがペアの画像と英語のキャプションを一致させるように挑戦し、語彙的に重複するが意味が異なるように構築されたアイテム (たとえば、「草の中にマグカップがあります」と「ある草の中にマグカップがあります」マグカップに入った草」)。新しいきめの細かいタグを使用してデータセットに注釈を付けることにより、Winoground タスクを解決するには、構成言語の理解だけでなく、常識的な推論や、低解像度の画像で焦点が合っていない小さなオブジェクトを見つけるなど、他の多くの能力が必要であることを示しています。このホワイト ペーパーでは、関連タスク (プロービング タスク、画像検索タスク)、データ拡張、およびデータセットの手動検査に関する一連の実験を通じて、データセットの主な課題を特定します。私たちの分析は、視覚言語モデルの主な課題は、構成言語の理解ではなく、視覚的表現とテキスト表現の融合にある可能性があることを示唆しています。 https://github.com/ajd12342/why-winoground-hard で注釈とコードをリリースします。
Recent visuolinguistic pre-trained models show promising progress on various end tasks such as image retrieval and video captioning. Yet, they fail miserably on the recently proposed Winoground dataset, which challenges models to match paired images and English captions, with items constructed to overlap lexically but differ in meaning (e.g., "there is a mug in some grass" vs. "there is some grass in a mug"). By annotating the dataset using new fine-grained tags, we show that solving the Winoground task requires not just compositional language understanding, but a host of other abilities like commonsense reasoning or locating small, out-of-focus objects in low-resolution images. In this paper, we identify the dataset's main challenges through a suite of experiments on related tasks (probing task, image retrieval task), data augmentation, and manual inspection of the dataset. Our analysis suggests that a main challenge in visuolinguistic models may lie in fusing visual and textual representations, rather than in compositional language understanding. We release our annotation and code at https://github.com/ajd12342/why-winoground-hard .