arXiv reaDer
グローバルな情報集約を再考することによる画像復元の改善
Improving Image Restoration by Revisiting Global Information Aggregation
グローバル平均プーリングなどのグローバル操作は、最高のパフォーマンスのイメージ復元機能で広く使用されています。これらは、空間次元全体に沿って入力フィーチャからグローバル情報を集約しますが、画像復元タスクのトレーニングおよび推論中は動作が異なります。つまり、トリミングされたパッチ(画像から)とフル解像度の画像など、さまざまな領域に基づいています。このホワイトペーパーでは、グローバルな情報集約を再検討し、推論中の画像ベースの機能が、トレーニング中のパッチベースの機能とは異なる分布を持っていることを発見しました。このトレインテストの不一致は、モデルのパフォーマンスに悪影響を及ぼしますが、これは以前の作業では大幅に見落とされていました。不整合を減らし、テスト時間のパフォーマンスを向上させるために、テスト時間ローカルコンバータ(TLC)と呼ばれる簡単な方法を提案します。 TLCは、推論中にのみグローバル操作をローカル操作に変換するため、大きな画像全体ではなく、ローカル空間領域内の特徴を集約します。提案された方法は、無視できるコストでさまざまなグローバルモジュール(たとえば、正規化、チャネル、および空間的注意)に適用できます。 TLCは、微調整を必要とせずに、単一画像の動きのぼけ除去、ビデオのぼけ除去、焦点ぼけのぼけ除去、画像のノイズ除去など、いくつかの画像復元タスクで最先端の結果を改善します。特に、TLCを使用すると、Restormer-Localにより、GoProデータセットでの単一画像のブレ除去が32.92dBから33.57dBになり、最先端の結果が得られます。コードはhttps://github.com/megvii-research/tlcで入手できます。
Global operations, such as global average pooling, are widely used in top-performance image restorers. They aggregate global information from input features along entire spatial dimensions but behave differently during training and inference in image restoration tasks: they are based on different regions, namely the cropped patches (from images) and the full-resolution images. This paper revisits global information aggregation and finds that the image-based features during inference have a different distribution than the patch-based features during training. This train-test inconsistency negatively impacts the performance of models, which is severely overlooked by previous works. To reduce the inconsistency and improve test-time performance, we propose a simple method called Test-time Local Converter (TLC). Our TLC converts global operations to local ones only during inference so that they aggregate features within local spatial regions rather than the entire large images. The proposed method can be applied to various global modules (e.g., normalization, channel and spatial attention) with negligible costs. Without the need for any fine-tuning, TLC improves state-of-the-art results on several image restoration tasks, including single-image motion deblurring, video deblurring, defocus deblurring, and image denoising. In particular, with TLC, our Restormer-Local improves the state-of-the-art result in single image deblurring from 32.92 dB to 33.57 dB on GoPro dataset. The code is available at https://github.com/megvii-research/tlc.
updated: Tue Aug 02 2022 16:21:02 GMT+0000 (UTC)
published: Wed Dec 08 2021 12:52:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト