arXiv reaDer
ドリルダウン:自然言語クエリを使用した複雑なシーンのインタラクティブな検索
Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries
 このホワイトペーパーでは、自然言語クエリを使用した対話型画像検索のタスクについて説明します。ユーザーは、検索結果のセットを絞り込むために入力クエリを段階的に提供します。さらに、複数のオブジェクトを含む複雑な画像シーンのコンテキストでこの問題を調査します。ドリルダウン、シングルラウンド画像検索の現在の方法を大幅に拡張する効率的なコンパクトな状態表現で複数のクエリをエンコードするための効果的なフレームワークを提案します。複数のラウンドの自然言語クエリを入力として使用すると、複雑なシーンの任意の特定の画像を見つけるのに驚くほど効果的であることがわかります。さらに、テキストキャプションを含む既存の画像データセットは、このタスクに対して驚くほど効果的な弱い監視の形態を提供できることがわかります。私たちの方法を既存のシーケンシャルエンコーディングおよび埋め込みネットワークと比較し、2つの提案されたベンチマークで優れたパフォーマンスを実証します:クエリとして領域キャプションを使用するシミュレーションシナリオでの自動画像検索、および人間の評価者からの実際のクエリを使用したインタラクティブな画像検索。
This paper explores the task of interactive image retrieval using natural language queries, where a user progressively provides input queries to refine a set of retrieval results. Moreover, our work explores this problem in the context of complex image scenes containing multiple objects. We propose Drill-down, an effective framework for encoding multiple queries with an efficient compact state representation that significantly extends current methods for single-round image retrieval. We show that using multiple rounds of natural language queries as input can be surprisingly effective to find arbitrarily specific images of complex scenes. Furthermore, we find that existing image datasets with textual captions can provide a surprisingly effective form of weak supervision for this task. We compare our method with existing sequential encoding and embedding networks, demonstrating superior performance on two proposed benchmarks: automatic image retrieval on a simulated scenario that uses region captions as queries, and interactive image retrieval using real queries from human evaluators.
updated: Sun Nov 10 2019 01:50:16 GMT+0000 (UTC)
published: Sun Nov 10 2019 01:50:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト