arXiv reaDer
DE-Net: 動的テキスト誘導画像編集敵対的ネットワーク
DE-Net: Dynamic Text-guided Image Editing Adversarial Networks
テキストガイドによる画像編集モデルは、驚くべき結果を示しています。ただし、2 つの問題が残っています。第 1 に、さまざまな編集要件 (色の変更、テクスチャの変更、コンテンツの追加と削除など) に対して固定の操作モジュールを使用するため、過剰な編集や不十分な編集が行われます。第 2 に、テキストが必要な部分とテキストに関係のない部分を明確に区別できないため、編集が不正確になります。これらの制限を解決するために、(i) さまざまな編集要件に対してさまざまな編集モジュールを動的に構成する動的編集ブロック (DEBlock) を提案します。 (ii) ターゲット テキストとソース イメージの推論に従って、DEBlock の構成の重みを予測する構成予測子 (Comp-Pred)。 (iii) ソース画像の特徴を照会して、テキストが必要な部分とテキストに無関係な部分を区別する動的テキスト適応畳み込みブロック (DCBlock)。広範な実験により、当社の DE-Net が優れたパフォーマンスを達成し、ソース画像をより正確かつ正確に操作できることが実証されました。コードは https://github.com/tobran/DE-Net で入手できます。
Text-guided image editing models have shown remarkable results. However, there remain two problems. First, they employ fixed manipulation modules for various editing requirements (e.g., color changing, texture changing, content adding and removing), which results in over-editing or insufficient editing. Second, they do not clearly distinguish between text-required and text-irrelevant parts, which leads to inaccurate editing. To solve these limitations, we propose: (i) a Dynamic Editing Block (DEBlock) which composes different editing modules dynamically for various editing requirements. (ii) a Composition Predictor (Comp-Pred) which predicts the composition weights for DEBlock according to the inference on target texts and source images. (iii) a Dynamic text-adaptive Convolution Block (DCBlock) which queries source image features to distinguish text-required parts and text-irrelevant parts. Extensive experiments demonstrate that our DE-Net achieves excellent performance and manipulates source images more correctly and accurately. Code is available at https://github.com/tobran/DE-Net.
updated: Sat Aug 20 2022 15:46:46 GMT+0000 (UTC)
published: Thu Jun 02 2022 17:20:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト