arXiv reaDer
画像ベースのCLIPガイド付きエッセンス転送
Image-Based CLIP-Guided Essence Transfer
CLIPは、一致した画像とテキストキャプションの大規模なコーパスでトレーニングされているため、限られた数のクラスに対してのみマルチクラス分類を実行するネットワークよりも意味的にはるかに豊富です。ゼロショットのコンピュータビジョンタスクに非常に適していることが示されています。ここでは、セマンティックブレンディングをサポートする機能を示します。 StyleGANスペースは、たとえば2人の子の画像に対してすでに適切なブレンドを実行しますが、異なる属性を持つ画像をブレンドする場合は苦労します。一方、CLIP自体は、ブレンド時にアイデンティティを維持するのに苦労します。 2つの組み合わせは、両方の表現の利点を享受する強力なブレンド手法を提供するようです。これは、最初の潜在空間での加法性を想定し、最適化によって2番目の潜在空間での加法性を保証する新しい方法によって可能になります。
CLIP is trained on a large corpus of matched images and text captions and is, therefore, much richer semantically than networks that perform multiclass classification for a limited number of classes only. It has been shown to be extremely suitable for zero-shot computer vision tasks; here, we demonstrate its ability to support semantic blending. While the StyleGAN space already performs reasonable blending for images of, e.g., two children, it struggles when blending images with different attributes. On the other hand, CLIP by itself struggles to maintain identity when blending. The combination of the two seems to provide a powerful blending technique, which enjoys the benefits of both representations. This is enabled through a novel method, which assumes additivity in the first latent space and ensures additivity in the second through optimization.
updated: Sun Oct 24 2021 12:46:53 GMT+0000 (UTC)
published: Sun Oct 24 2021 12:46:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト