画像内の自然言語フレーズの根拠となる既存の作業のほとんどは、問題のフレーズが画像に関連しているという仮定から始まります。この論文では、フレーズが画像に関連しているかどうかを識別し、フレーズをローカライズする必要がある、自然言語の接地タスクのより現実的なバージョンについて説明します。これは、オブジェクト検出をオープンエンドの語彙に一般化したものと見なすこともでき、数ショットおよびゼロショット検出の要素を導入します。 Faster R-CNNを拡張して画像領域とフレーズを関連付ける、このタスクのアプローチを提案します。正準相関分析(CCA)を使用してネットワークの分類レイヤーを慎重に初期化することにより、類似したフレーズ間で推論する際により識別力のあるソリューションを推奨し、3つの人気のあるフレーズグラウンディングデータセットFlickr30Kでの素朴な適応と比較して2倍以上のパフォーマンスをもたらしますエンティティ、ReferItゲーム、およびVisual Genome。テスト時のフレーズの語彙サイズはそれぞれ5K、32K、および159Kです。
Most existing work that grounds natural language phrases in images starts with the assumption that the phrase in question is relevant to the image. In this paper we address a more realistic version of the natural language grounding task where we must both identify whether the phrase is relevant to an image and localize the phrase. This can also be viewed as a generalization of object detection to an open-ended vocabulary, introducing elements of few- and zero-shot detection. We propose an approach for this task that extends Faster R-CNN to relate image regions and phrases. By carefully initializing the classification layers of our network using canonical correlation analysis (CCA), we encourage a solution that is more discerning when reasoning between similar phrases, resulting in over double the performance compared to a naive adaptation on three popular phrase grounding datasets, Flickr30K Entities, ReferIt Game, and Visual Genome, with test-time phrase vocabulary sizes of 5K, 32K, and 159K, respectively.