arXiv reaDer
予測、防止、および評価:事前トレーニングされた視覚言語モデルによって強化された、もつれを解いたテキスト駆動型画像操作
Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model
解きほぐされた画像操作を実現するために、以前の作業は手動の注釈に大きく依存しています。一方、利用可能な操作は、モデルがトレーニングされた事前定義されたセットに制限されます。この論文では、手動の注釈を必要とせず、したがって固定操作に限定されない、もつれを解いたテキスト駆動型画像操作のための新しいフレームワーク、すなわち、予測、防止、および評価(PPE)を提案します。私たちの方法は、大規模な事前訓練された視覚言語モデルCLIPの力を深く活用することにより、ターゲットにアプローチします。具体的には、まず、特定のテキストコマンドの絡み合う可能性のある属性を予測します。次に、予測された属性に基づいて、トレーニング中のエンタングルメントを防ぐためにエンタングルメント損失を導入します。最後に、解きほぐされた画像操作を評価するための新しい評価指標を提案します。やりがいのある顔編集タスクでの方法の有効性を検証します。広範な実験により、提案されたPPEフレームワークは、最新のStyleCLIPベースラインよりもはるかに優れた定量的および定性的な結果を達成することが示されています。
To achieve disentangled image manipulation, previous works depend heavily on manual annotation. Meanwhile, the available manipulations are limited to a pre-defined set the models were trained for. In this paper, we propose a novel framework, i.e., Predict, Prevent, and Evaluate (PPE), for disentangled text-driven image manipulation, which does not need manual annotation and thus is not limited to fixed manipulations. Our method approaches the targets by deeply exploiting the power of the large scale pre-trained vision-language model CLIP. Concretely, we firstly Predict the possibly entangled attributes for a given text command. Then, based on the predicted attributes, we introduce an entanglement loss to Prevent entanglements during training. Finally, we propose a new evaluation metric to Evaluate the disentangled image manipulation. We verify the effectiveness of our method on the challenging face editing task. Extensive experiments show that the proposed PPE framework achieves much better quantitative and qualitative results than the up-to-date StyleCLIP baseline.
updated: Fri Nov 26 2021 06:49:26 GMT+0000 (UTC)
published: Fri Nov 26 2021 06:49:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト