画像キャプションペアからの弱い監視を使用して、自由形式のテキストフレーズをグラウンディングする問題に対処します。キャプションから画像への検索を「下流」タスクとして使用して、フレーズのローカリゼーションプロセスをガイドする、新しいエンドツーエンドモデルを提案します。この方法は、最初のステップとして、関心領域(RoI)とキャプション内のフレーズ間の潜在的な対応を推測し、これらの一致したRoIを使用して識別画像表現を作成します。後続のステップで、この(学習された)表現はキャプションに合わせられます。私たちの主な貢献は、この「キャプション条件付き」画像エンコーディングの構築にあります。これは、両方のタスクを緊密に結合し、弱い監視が視覚的なグラウンディングを効果的に導くことを可能にします。提案されたモデルのさまざまなコンポーネントを調査し、競合するベースラインと比較するために、広範な経験的および定性的分析を提供します。フレーズのローカリゼーションについては、VisualGenomeデータセットの従来の最先端技術よりも4.9%(絶対)の改善が報告されています。また、COCOおよびFlickr30kデータセットでのダウンストリームキャプションからイメージの取得タスクに関する最新技術と同等の結果を報告します。
We address the problem of grounding free-form textual phrases by using weak supervision from image-caption pairs. We propose a novel end-to-end model that uses caption-to-image retrieval as a `downstream' task to guide the process of phrase localization. Our method, as a first step, infers the latent correspondences between regions-of-interest (RoIs) and phrases in the caption and creates a discriminative image representation using these matched RoIs. In a subsequent step, this (learned) representation is aligned with the caption. Our key contribution lies in building this `caption-conditioned' image encoding which tightly couples both the tasks and allows the weak supervision to effectively guide visual grounding. We provide an extensive empirical and qualitative analysis to investigate the different components of our proposed model and compare it with competitive baselines. For phrase localization, we report an improvement of 4.9% (absolute) over the prior state-of-the-art on the VisualGenome dataset. We also report results that are at par with the state-of-the-art on the downstream caption-to-image retrieval task on COCO and Flickr30k datasets.