Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models
合成画像検索のタスクを拡張します。入力クエリは、画像と、画像を変更する方法の短いテキストによる説明で構成されます。既存の方法は、ファッション製品などの狭いドメイン内の複雑でない画像にのみ適用されているため、豊富な画像や言語のコンテキストでの詳細な視覚的推論に関する研究の範囲が制限されています。この問題に対処するために、クラウドソーシングされたオープンドメイン画像と人間が生成した修正テキストの36,000ペア以上で構成される、実際の画像の画像検索の作成(CIRR)データセットを収集します。現在の方法をオープンドメインに拡張するために、自然言語を条件とする視覚機能を変更するための豊富な事前トレーニング済みの視覚と言語(V&L)の知識を活用するトランスフォーマーベースのモデルであるCIRPLANTを提案します。次に、変更された機能の最近傍ルックアップによって取得が行われます。比較的シンプルなアーキテクチャで、CIRPLANTはオープンドメイン画像の既存の方法よりも優れている一方で、ファッションなどの既存の狭いデータセットの最先端の精度と一致していることを示します。 CIRRのリリースとともに、この作業は合成画像検索に関するさらなる研究を刺激すると信じています。
We extend the task of composed image retrieval, where an input query consists of an image and short textual description of how to modify the image. Existing methods have only been applied to non-complex images within narrow domains, such as fashion products, thereby limiting the scope of study on in-depth visual reasoning in rich image and language contexts. To address this issue, we collect the Compose Image Retrieval on Real-life images (CIRR) dataset, which consists of over 36,000 pairs of crowd-sourced, open-domain images with human-generated modifying text. To extend current methods to the open-domain, we propose CIRPLANT, a transformer based model that leverages rich pre-trained vision-and-language (V&L) knowledge for modifying visual features conditioned on natural language. Retrieval is then done by nearest neighbor lookup on the modified features. We demonstrate that with a relatively simple architecture, CIRPLANT outperforms existing methods on open-domain images, while matching state-of-the-art accuracy on the existing narrow datasets, such as fashion. Together with the release of CIRR, we believe this work will inspire further research on composed image retrieval.
updated: Mon Aug 09 2021 13:25:06 GMT+0000 (UTC)
published: Mon Aug 09 2021 13:25:06 GMT+0000 (UTC)
