arXiv reaDer
ロバストな音声誘導画像操作
Robust Sound-Guided Image Manipulation
最近の成功例では、画像をテキスト プロンプトで操作できることが示唆されています。たとえば、晴れた日の風景シーンが、「雨が降っている」というテキスト入力によって駆動される雨の日の同じシーンに操作されます。これらのアプローチは、多くの場合、マルチモーダル (テキストと画像) 埋め込みスペースを活用する StyleCLIP ベースの画像ジェネレーターを利用します。ただし、そのようなテキスト入力は、豊富なセマンティック キューを提供および合成する際にボトルネックになることがよくあります。たとえば、激しい雨と雷雨を伴う雨を区別する場合などです。この問題に対処するために、追加のモダリティであるサウンドを活用することをお勧めします。これは、テキストよりも多様なセマンティック キュー (鮮やかな感情や自然界のダイナミックな表現) を伝えることができるため、画像操作に顕著な利点があります。この論文では、最初に画像とテキストの結合埋め込み空間を音声で拡張し、直接潜在最適化法を適用して、音声入力、たとえば雨の音に基づいて特定の画像を操作する新しいアプローチを提案します。私たちの広範な実験は、私たちの音声誘導画像操作アプローチが、最先端のテキストおよび音声誘導画像操作方法よりも意味的にも視覚的にももっともらしい操作結果を生み出すことを示しており、これは人間の評価によってさらに確認されています。下流のタスク評価では、学習した画像 - テキスト - 音声結合埋め込み空間が効果的に音声入力をエンコードすることも示されています。
Recent successes suggest that an image can be manipulated by a text prompt, e.g., a landscape scene on a sunny day is manipulated into the same scene on a rainy day driven by a text input "raining". These approaches often utilize a StyleCLIP-based image generator, which leverages multi-modal (text and image) embedding space. However, we observe that such text inputs are often bottlenecked in providing and synthesizing rich semantic cues, e.g., differentiating heavy rain from rain with thunderstorms. To address this issue, we advocate leveraging an additional modality, sound, which has notable advantages in image manipulation as it can convey more diverse semantic cues (vivid emotions or dynamic expressions of the natural world) than texts. In this paper, we propose a novel approach that first extends the image-text joint embedding space with sound and applies a direct latent optimization method to manipulate a given image based on audio input, e.g., the sound of rain. Our extensive experiments show that our sound-guided image manipulation approach produces semantically and visually more plausible manipulation results than the state-of-the-art text and sound-guided image manipulation methods, which are further confirmed by our human evaluations. Our downstream task evaluations also show that our learned image-text-sound joint embedding space effectively encodes sound inputs.
updated: Tue Apr 25 2023 01:31:20 GMT+0000 (UTC)
published: Tue Aug 30 2022 09:59:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト