Instagramの投稿などのマルチモーダルデータから著者の意図を計算するには、テキストと画像の複雑な関係をモデリングする必要があります。たとえば、キャプションは画像と皮肉なコントラストを呼び起こす可能性があるため、キャプションも画像も他方の単なる転写ではありません。その代わりに、意味の乗算と呼ばれるものを介して結合し、テキストと画像の文字通りの意味とより複雑な関係を持つ新しい意味を作成します。ここでは、3つの直交分類法にラベル付けされた1299 Instagram投稿のマルチモーダルデータセットを紹介します:画像とキャプションのペアの背後にある著者の意図、画像とキャプションの文字通りの意味の文脈的関係、画像の意味の意味論的関係キャプション。分類法を検証するためにベースラインの深層マルチモーダル分類器を構築し、テキストと画像の両方を使用すると、画像モダリティのみを使用した場合と比較して意図検出が9.6%向上することを示し、非交差的意味の乗算の共通性を実証します。画像とキャプションが記号的に分岐するときに、マルチモダリティによるゲインが最大になります。データセットは、テキストと画像のペアリングから生じる豊かな意味を研究するための新しいリソースを提供します。
Computing author intent from multimodal data like Instagram posts requires modeling a complex relationship between text and image. For example, a caption might evoke an ironic contrast with the image, so neither caption nor image is a mere transcript of the other. Instead they combine -- via what has been called meaning multiplication -- to create a new meaning that has a more complex relation to the literal meanings of text and image. Here we introduce a multimodal dataset of 1299 Instagram posts labeled for three orthogonal taxonomies: the authorial intent behind the image-caption pair, the contextual relationship between the literal meanings of the image and caption, and the semiotic relationship between the signified meanings of the image and caption. We build a baseline deep multimodal classifier to validate the taxonomy, showing that employing both text and image improves intent detection by 9.6% compared to using only the image modality, demonstrating the commonality of non-intersective meaning multiplication. The gain with multimodality is greatest when the image and caption diverge semiotically. Our dataset offers a new resource for the study of the rich meanings that result from pairing text and image.