arXiv reaDer
テキスト駆動型画像変換のための埋め込み演算
Embedding Arithmetic for Text-driven Image Transformation
潜在的なテキスト表現は、有名なアナロジーのような幾何学的な規則性を示します。女王は王に、女性は男性になります。このような構造化された意味関係は、画像表現では示されませんでした。このセマンティックギャップを埋めることを目的とした最近の作品は、画像とテキストをマルチモーダル空間に埋め込み、テキスト定義の変換を画像モダリティに転送できるようにします。テキスト駆動型画像変換のタスクを評価するために、SIMATデータセットを紹介します。 SIMATには、シーン要素を置き換えるか、ペアごとの関係を変更することを目的とした6kの画像と18kの「変換クエリ」が含まれています。目標は、(ソース画像、変換)クエリと一致する画像を取得することです。画像/テキストマッチングオラクル(OSCAR)を使用して、画像変換が成功したかどうかを評価します。 SIMATデータセットは公開されます。 SIMATを使用して、バニラCLIPマルチモーダル埋め込みはテキスト駆動型の画像変換にはあまり適していないが、COCOデータセットを簡単に微調整することで劇的な改善がもたらされることを示します。また、事前にトレーニングされたユニバーサルセンテンスエンコーダー(FastText、LASER、LaBSE)の幾何学的特性を活用することが有益かどうかも調査します。
Latent text representations exhibit geometric regularities, such as the famous analogy: queen is to king what woman is to man. Such structured semantic relations were not demonstrated on image representations. Recent works aiming at bridging this semantic gap embed images and text into a multimodal space, enabling the transfer of text-defined transformations to the image modality. We introduce the SIMAT dataset to evaluate the task of text-driven image transformation. SIMAT contains 6k images and 18k "transformation queries" that aim at either replacing scene elements or changing their pairwise relationships. The goal is to retrieve an image consistent with the (source image, transformation) query. We use an image/text matching oracle (OSCAR) to assess whether the image transformation is successful. The SIMAT dataset will be publicly available. We use SIMAT to show that vanilla CLIP multimodal embeddings are not very well suited for text-driven image transformation, but that a simple finetuning on the COCO dataset can bring dramatic improvements. We also study whether it is beneficial to leverage the geometric properties of pretrained universal sentence encoders (FastText, LASER and LaBSE).
updated: Mon Dec 06 2021 16:51:50 GMT+0000 (UTC)
published: Mon Dec 06 2021 16:51:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト