arXiv reaDer
複雑なテキスト命令によるインタラクティブな画像操作
Interactive Image Manipulation with Complex Text Instructions
最近、テキストガイドによる画像操作は、その高い柔軟性と制御性により、マルチメディア処理とコンピュータービジョンの研究分野で注目を集めています。その目標は、テキストの説明に従って、入力参照画像の一部を意味的に操作することです。しかし、既存の作品の多くは次のような問題を抱えています: (1) テキストに無関係なコンテンツは常に維持できず、ランダムに変更される、(2) 画像操作のパフォーマンスはさらに改善する必要がある、(3) 説明的な属性しか操作できない.これらの問題を解決するために、複雑なテキスト命令を使用して対話的に画像を編集する新しい画像操作方法を提案します。これにより、ユーザーは画像操作の精度を向上させるだけでなく、オブジェクトの拡大、縮小、削除、背景を入力画像に置き換えるなどの複雑なタスクを実行することもできます。これらのタスクを可能にするために、私たちは 3 つの戦略を適用します。まず、与えられた画像をテキスト関連コンテンツとテキスト非関連コンテンツに分割します。テキストに関連するコンテンツのみが操作され、テキストに関連しないコンテンツは維持されます。次に、超解像技術により操作領域を拡大し、操作性をさらに向上させ、オブジェクト自体の操作を支援します。第 3 に、セグメンテーション マップをインタラクティブに編集して、生成された画像をユーザーの要望に応じて再修正するためのユーザー インターフェイスが導入されます。 Caltech-UCSD Birds-200-2011 (CUB) データセットと Microsoft Common Objects in Context (MS COCO) データセットに関する広範な実験は、提案された方法がインタラクティブで柔軟で正確な画像操作をリアルタイムで可能にすることを示しています。定性的および定量的評価を通じて、提案されたモデルが他の最先端の方法よりも優れていることを示します。
Recently, text-guided image manipulation has received increasing attention in the research field of multimedia processing and computer vision due to its high flexibility and controllability. Its goal is to semantically manipulate parts of an input reference image according to the text descriptions. However, most of the existing works have the following problems: (1) text-irrelevant content cannot always be maintained but randomly changed, (2) the performance of image manipulation still needs to be further improved, (3) only can manipulate descriptive attributes. To solve these problems, we propose a novel image manipulation method that interactively edits an image using complex text instructions. It allows users to not only improve the accuracy of image manipulation but also achieve complex tasks such as enlarging, dwindling, or removing objects and replacing the background with the input image. To make these tasks possible, we apply three strategies. First, the given image is divided into text-relevant content and text-irrelevant content. Only the text-relevant content is manipulated and the text-irrelevant content can be maintained. Second, a super-resolution method is used to enlarge the manipulation region to further improve the operability and to help manipulate the object itself. Third, a user interface is introduced for editing the segmentation map interactively to re-modify the generated image according to the user's desires. Extensive experiments on the Caltech-UCSD Birds-200-2011 (CUB) dataset and Microsoft Common Objects in Context (MS COCO) datasets demonstrate our proposed method can enable interactive, flexible, and accurate image manipulation in real-time. Through qualitative and quantitative evaluations, we show that the proposed model outperforms other state-of-the-art methods.
updated: Fri Nov 25 2022 08:05:52 GMT+0000 (UTC)
published: Fri Nov 25 2022 08:05:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト