arXiv reaDer
テキストに基づく詳細生成としての超解像の再考
Rethinking Super-Resolution as Text-Guided Details Generation
ディープニューラルネットワークは、単一画像超解像(SISR)のパフォーマンスを大幅に向上させました。従来の方法は、画像モダリティの入力のみに基づいて単一の高解像度(HR)ソリューションを復元することに依然頼っています。ただし、画像レベルの情報は、大きなアップスケーリング係数(x8、x16)に直面している適切な詳細と写実的な視覚品質を予測するには不十分です。本論文では、SISRをセマンティック画像詳細強調問題と見なし、グラウンドトゥルースに忠実なセマンティックに合理的なHR画像を生成する新しい視点を提案します。再構成された画像の意味精度と視覚的品質を向上させるために、テキストと画像のモダリティからの情報を効果的に利用できるテキストガイド付き超解像(TGSR)フレームワークを提案することにより、SISRのマルチモーダル融合学習を探索します。 。既存の方法とは異なり、提案されたTGSRは、粗いプロセスから細かいプロセスを通じて、テキストの説明と一致するHR画像の詳細を生成できます。広範な実験とアブレーション研究により、テキスト参照を利用してリアルな画像を復元するTGSRの効果が実証されています。
Deep neural networks have greatly promoted the performance of single image super-resolution (SISR). Conventional methods still resort to restoring the single high-resolution (HR) solution only based on the input of image modality. However, the image-level information is insufficient to predict adequate details and photo-realistic visual quality facing large upscaling factors (x8, x16). In this paper, we propose a new perspective that regards the SISR as a semantic image detail enhancement problem to generate semantically reasonable HR image that are faithful to the ground truth. To enhance the semantic accuracy and the visual quality of the reconstructed image, we explore the multi-modal fusion learning in SISR by proposing a Text-Guided Super-Resolution (TGSR) framework, which can effectively utilize the information from the text and image modalities. Different from existing methods, the proposed TGSR could generate HR image details that match the text descriptions through a coarse-to-fine process. Extensive experiments and ablation studies demonstrate the effect of the TGSR, which exploits the text reference to recover realistic images.
updated: Thu Jul 14 2022 01:46:38 GMT+0000 (UTC)
published: Thu Jul 14 2022 01:46:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト