arXiv reaDer
FRIH:きめ細かい領域認識画像ハーモナイゼーション
FRIH: Fine-grained Region-aware Image Harmonization
画像の調和は、合成画像の前景と背景のよりリアルな外観を生成することを目的としています。既存の方法は、フォアグラウンド全体に対して同じ調和プロセスを実行します。ただし、埋め込まれた前景には常に異なる外観パターンが含まれています。既存のソリューションはすべて、各カラーブロックの違いを無視し、特定の詳細を失います。したがって、エンドツーエンドでトレーニングされた、細粒度の領域認識画像調和(FRIH)のための新しいグローバルローカル2ステージフレームワークを提案します。最初の段階では、入力フォアグラウンドマスク全体を使用して、グローバルな粗粒度のハーモナイゼーションを作成します。第2段階では、合成画像の対応するピクセルRGB値によって、入力前景マスクをいくつかのサブマスクに適応的にクラスター化します。各サブマスクと粗く調整された画像はそれぞれ連結され、軽量のカスケードモジュールに送られ、領域を認識するローカル機能に従ってグローバルな調和パフォーマンスを調整します。さらに、カスケードされたすべてのデコーダー層の特徴を融合して最終結果を生成することにより、融合予測モジュールをさらに設計しました。これにより、さまざまな程度の調和結果を包括的に利用できます。ベルやホイッスルがない場合、FRIHアルゴリズムは、軽量モデルを使用してiHarmony4データセット(PSNRは38.19 dB)で最高のパフォーマンスを実現します。モデルのパラメータはわずか11.98Mで、既存の方法をはるかに下回っています。
Image harmonization aims to generate a more realistic appearance of foreground and background for a composite image. Existing methods perform the same harmonization process for the whole foreground. However, the implanted foreground always contains different appearance patterns. All the existing solutions ignore the difference of each color block and losing some specific details. Therefore, we propose a novel global-local two stages framework for Fine-grained Region-aware Image Harmonization (FRIH), which is trained end-to-end. In the first stage, the whole input foreground mask is used to make a global coarse-grained harmonization. In the second stage, we adaptively cluster the input foreground mask into several submasks by the corresponding pixel RGB values in the composite image. Each submask and the coarsely adjusted image are concatenated respectively and fed into a lightweight cascaded module, adjusting the global harmonization performance according to the region-aware local feature. Moreover, we further designed a fusion prediction module by fusing features from all the cascaded decoder layers together to generate the final result, which could utilize the different degrees of harmonization results comprehensively. Without bells and whistles, our FRIH algorithm achieves the best performance on iHarmony4 dataset (PSNR is 38.19 dB) with a lightweight model. The parameters for our model are only 11.98 M, far below the existing methods.
updated: Fri May 13 2022 04:50:26 GMT+0000 (UTC)
published: Fri May 13 2022 04:50:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト