arXiv reaDer
マルチイメージ、マルチセンテンス文書におけるマルチモーダルリンクの教師なし発見
Unsupervised Discovery of Multimodal Links in Multi-image, Multi-sentence Documents
  画像とテキストはWeb上で絶えず共起していますが、画像と文(または他のドキュメント内テキストユニット)間の明示的なリンクは存在しないことがよくあります。トレーニングで明示的なマルチモーダルアノテーションに依存することなく、画像と文章の関係を発見するアルゴリズムを提示します。クラウドワーカーがポストホックでキャプションを付けた画像のグループで構成されるドキュメントから、自然に発生するユーザー生成のマルチモーダルドキュメントまで、さまざまな難易度の7つのデータセットを実験します。テスト時に同じドキュメント内の特定のセンテンスと特定のイメージ間のリンクを予測するには、ドキュメント内で画像とセンテンスのコレクションが共起するかどうかを識別することに基づいた構造化されたトレーニング目標が見つかります。
Images and text co-occur constantly on the web, but explicit links between images and sentences (or other intra-document textual units) are often not present. We present algorithms that discover image-sentence relationships without relying on explicit multimodal annotation in training. We experiment on seven datasets of varying difficulty, ranging from documents consisting of groups of images captioned post hoc by crowdworkers to naturally-occurring user-generated multimodal documents. We find that a structured training objective based on identifying whether collections of images and sentences co-occur in documents can suffice to predict links between specific sentences and specific images within the same document at test time.
updated: Sat Aug 31 2019 20:43:53 GMT+0000 (UTC)
published: Tue Apr 16 2019 17:07:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト