画像とテキストはWeb上で絶えず共起していますが、画像と文(または他のドキュメント内テキストユニット)間の明示的なリンクは存在しないことがよくあります。トレーニングで明示的なマルチモーダルアノテーションに依存することなく、画像と文章の関係を発見するアルゴリズムを提示します。クラウドワーカーがポストホックでキャプションを付けた画像のグループで構成されるドキュメントから、自然に発生するユーザー生成のマルチモーダルドキュメントまで、さまざまな難易度の7つのデータセットを実験します。テスト時に同じドキュメント内の特定のセンテンスと特定のイメージ間のリンクを予測するには、ドキュメント内で画像とセンテンスのコレクションが共起するかどうかを識別することに基づいた構造化されたトレーニング目標が見つかります。
Images and text co-occur constantly on the web, but explicit links between images and sentences (or other intra-document textual units) are often not present. We present algorithms that discover image-sentence relationships without relying on explicit multimodal annotation in training. We experiment on seven datasets of varying difficulty, ranging from documents consisting of groups of images captioned post hoc by crowdworkers to naturally-occurring user-generated multimodal documents. We find that a structured training objective based on identifying whether collections of images and sentences co-occur in documents can suffice to predict links between specific sentences and specific images within the same document at test time.