arXiv reaDer
ウォーリーをさがせ!テキストと画像を越えて人々をつなぐ
Who's Waldo? Linking People Across Text and Images
キャプションで名前が付けられた人と画像で描かれた人との間のリンクの問題である、人を中心とした視覚的根拠のためのタスクとベンチマークデータセットを提示します。主にオブジェクトベースである視覚的接地の以前の作業とは対照的に、私たちの新しいタスクは、そのような画像とキャプションのペアでトレーニングされたメソッドがコンテキストの手がかり(間の豊富な相互作用など)に焦点を当てるように促すために、キャプション内の人の名前をマスクします名前と外見の関係を学ぶのではなく、複数の人)。このタスクを容易にするために、ウィキメディアコモンズの画像キャプションデータから自動的にマイニングされた新しいデータセット、Who'sWaldoを紹介します。このタスクのいくつかの強力なベースラインを上回るTransformerベースの方法を提案し、ビジョンと言語の両方を考慮したコンテキストモデルの作業を促進するために、データを研究コミュニティにリリースしています。
We present a task and benchmark dataset for person-centric visual grounding, the problem of linking between people named in a caption and people pictured in an image. In contrast to prior work in visual grounding, which is predominantly object-based, our new task masks out the names of people in captions in order to encourage methods trained on such image-caption pairs to focus on contextual cues (such as rich interactions between multiple people), rather than learning associations between names and appearances. To facilitate this task, we introduce a new dataset, Who's Waldo, mined automatically from image-caption data on Wikimedia Commons. We propose a Transformer-based method that outperforms several strong baselines on this task, and are releasing our data to the research community to spur work on contextual models that consider both vision and language.
updated: Mon Aug 16 2021 17:36:49 GMT+0000 (UTC)
published: Mon Aug 16 2021 17:36:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト