arXiv reaDer
ManiTrans:トークンごとのセマンティックアラインメントと生成によるエンティティレベルのテキストガイド付き画像操作
ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and Generation
既存のテキストガイド付き画像操作方法は、画像の外観を変更したり、仮想または単純なシナリオでいくつかのオブジェクトを編集したりすることを目的としていますが、これは実際のアプリケーションにはほど遠いものです。この作業では、実世界のエンティティレベルでのテキストガイド付き画像操作に関する新しいタスクを研究します。このタスクでは、(1)テキストの説明と一致するエンティティを編集する、(2)テキストに関係のない領域を保持する、(3)操作されたエンティティを画像に自然にマージするという3つの基本的な要件が課せられます。そのために、2段階の画像合成手法に基づく新しいトランスベースのフレームワークであるManiTransを提案します。これは、エンティティの外観を編集できるだけでなく、テキストガイダンスに対応する新しいエンティティを生成することもできます。私たちのフレームワークには、操作する画像領域を見つけるためのセマンティックアラインメントモジュールと、ビジョンと言語の関係をアラインメントするのに役立つセマンティックロスが組み込まれています。実際のデータセット、CUB、Oxford、およびCOCOデータセットに対して広範な実験を行い、この方法が関連領域と非関連領域を区別し、ベースライン方法と比較してより正確で柔軟な操作を実現できることを確認します。プロジェクトのホームページはhttps://jawang19.github.io/manitransです。
Existing text-guided image manipulation methods aim to modify the appearance of the image or to edit a few objects in a virtual or simple scenario, which is far from practical application. In this work, we study a novel task on text-guided image manipulation on the entity level in the real world. The task imposes three basic requirements, (1) to edit the entity consistent with the text descriptions, (2) to preserve the text-irrelevant regions, and (3) to merge the manipulated entity into the image naturally. To this end, we propose a new transformer-based framework based on the two-stage image synthesis method, namely ManiTrans, which can not only edit the appearance of entities but also generate new entities corresponding to the text guidance. Our framework incorporates a semantic alignment module to locate the image regions to be manipulated, and a semantic loss to help align the relationship between the vision and language. We conduct extensive experiments on the real datasets, CUB, Oxford, and COCO datasets to verify that our method can distinguish the relevant and irrelevant regions and achieve more precise and flexible manipulation compared with baseline methods. The project homepage is https://jawang19.github.io/manitrans.
updated: Sat Apr 09 2022 09:01:19 GMT+0000 (UTC)
published: Sat Apr 09 2022 09:01:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト