さまざまな生成的敵対的ネットワーク(GAN)ベースの画像修復方法の中で、コンテキストアテンションモジュール(CAM)を備えた粗密ネットワークは顕著なパフォーマンスを示しています。ただし、生成ネットワークが2つ積み上げられているため、粗密ネットワークでは、畳み込み演算やネットワークパラメーターなどの多数の計算リソースが必要になり、速度が低下します。この問題に対処するために、PEPSIと呼ばれる新しいネットワークアーキテクチャを提案します。これは、ハードウェアコストを削減し、修復パフォーマンスを向上させることを目的とする、セマンティック修復ネットワークの並列拡張デコーダパスです。 PEPSIは、単一の共有エンコードネットワークと、粗経路および修復経路と呼ばれる並列デコードネットワークで構成されています。粗いパスは、CAMの機能の予測のためにエンコードネットワークをトレーニングするための予備的な修復結果を生成します。同時に、修復パスは、CAMを介して再構築された洗練された機能を使用して、より高い修復品質を生成します。さらに、パフォーマンスを維持しながらネットワークパラメータを大幅に削減するDiet-PEPSIを提案します。 Diet-PEPSIでは、低いハードウェアコストでグローバルなコンテキスト情報をキャプチャするために、共通の重みを使用するが、指定された拡張率に応じて動的な機能を生成する、新しいレート適応拡張畳み込み層を提案します。パフォーマンスを最新の画像修復方法と比較する広範な実験により、PEPSIとDiet-PEPSIの両方が定性スコア、つまりピークS / N比(PSNR)と構造的類似性(SSIM)を改善することが実証されています。計算時間やネットワークパラメータの数などのハードウェアコストを大幅に削減できます。
Among the various generative adversarial network (GAN)-based image inpainting methods, a coarse-to-fine network with a contextual attention module (CAM) has shown remarkable performance. However, owing to two stacked generative networks, the coarse-to-fine network needs numerous computational resources such as convolution operations and network parameters, which result in low speed. To address this problem, we propose a novel network architecture called PEPSI: parallel extended-decoder path for semantic inpainting network, which aims at reducing the hardware costs and improving the inpainting performance. PEPSI consists of a single shared encoding network and parallel decoding networks called coarse and inpainting paths. The coarse path produces a preliminary inpainting result to train the encoding network for the prediction of features for the CAM. Simultaneously, the inpainting path generates higher inpainting quality using the refined features reconstructed via the CAM. In addition, we propose Diet-PEPSI that significantly reduces the network parameters while maintaining the performance. In Diet-PEPSI, to capture the global contextual information with low hardware costs, we propose novel rate-adaptive dilated convolutional layers, which employ the common weights but produce dynamic features depending on the given dilation rates. Extensive experiments comparing the performance with state-of-the-art image inpainting methods demonstrate that both PEPSI and Diet-PEPSI improve the qualitative scores, i.e. the peak signal-to-noise ratio (PSNR) and structural similarity (SSIM), as well as significantly reduce hardware costs such as computational time and the number of network parameters.