arXiv reaDer
LANIT: ラベル付けされていないデータの言語主導の画像から画像への変換
LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data
画像から画像への変換のための既存の技術は、通常、2 つの重大な問題に悩まされてきました。サンプルごとのドメイン アノテーションへの依存度が高いこと、および/または画像ごとに複数の属性を処理できないことです。最近の真に教師なしの方法では、クラスタリング アプローチを採用して、サンプルごとのワンホット ドメイン ラベルを簡単に提供します。ただし、現実世界の設定を説明することはできません。1 つのサンプルが複数の属性を持つ場合があります。さらに、クラスターのセマンティクスは、人間の理解と簡単に結びつけることができません。これらを克服するために、LANIT と呼ばれる LANguage 主導の画像から画像への変換モデルを紹介します。データセットのテキストで指定された取得しやすい候補属性を活用します。画像と属性の類似性は、サンプルごとのドメイン ラベルを示します。この定式化により、自然にマルチホット ラベルが有効になり、ユーザーは言語で一連の属性を使用してターゲット ドメインを指定できるようになります。初期プロンプトが不正確である場合を説明するために、プロンプト学習も提示します。さらに、翻訳された画像を対応するドメインにマッピングすることを強制するドメイン正則化の損失を示します。いくつかの標準的なベンチマークでの実験は、LANIT が既存のモデルと同等またはそれ以上のパフォーマンスを達成することを示しています。
Existing techniques for image-to-image translation commonly have suffered from two critical problems: heavy reliance on per-sample domain annotation and/or inability of handling multiple attributes per image. Recent truly-unsupervised methods adopt clustering approaches to easily provide per-sample one-hot domain labels. However, they cannot account for the real-world setting: one sample may have multiple attributes. In addition, the semantics of the clusters are not easily coupled to the human understanding. To overcome these, we present a LANguage-driven Image-to-image Translation model, dubbed LANIT. We leverage easy-to-obtain candidate attributes given in texts for a dataset: the similarity between images and attributes indicates per-sample domain labels. This formulation naturally enables multi-hot label so that users can specify the target domain with a set of attributes in language. To account for the case that the initial prompts are inaccurate, we also present prompt learning. We further present domain regularization loss that enforces translated images be mapped to the corresponding domain. Experiments on several standard benchmarks demonstrate that LANIT achieves comparable or superior performance to existing models.
updated: Sat Mar 04 2023 09:46:09 GMT+0000 (UTC)
published: Wed Aug 31 2022 14:30:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト