畳み込みニューラル ネットワーク (CNN) に基づく最新の単一画像超解像 (SISR) システムは、莫大な計算コストを必要とする一方で、優れたパフォーマンスを実現します。機能の冗長性の問題は、視覚認識タスクでよく研究されていますが、SISR で議論されることはめったにありません。 SISR モデルの多くの機能も互いに類似しているという観察に基づいて、シフト操作を使用して冗長な機能 (つまり、ゴースト機能) を生成することを提案します。 GPU のようなデバイスでは時間がかかる深さ方向の畳み込みと比較して、シフト操作は、一般的なハードウェア上の CNN に実用的な推論の高速化をもたらすことができます。 SISRタスクでのシフト操作の利点を分析し、Gumbel-Softmaxトリックに基づいてシフト方向を学習可能にします。さらに、事前にトレーニングされたモデルに基づいてクラスタリング手順が調査され、固有の特徴を生成するための固有フィルターが特定されます。ゴースト フィーチャは、これらの固有のフィーチャを特定の方向に沿って移動することによって導き出されます。最後に、完全な出力機能は、固有機能とゴースト機能を連結することによって構築されます。いくつかのベンチマーク モデルとデータセットに関する広範な実験により、提案された方法を組み込んだ非コンパクトおよび軽量 SISR モデルの両方が、パラメーター、FLOP、および GPU 推論レイテンシーを大幅に削減して、ベースラインに匹敵するパフォーマンスを達成できることが示されました。たとえば、パラメータを 46% 削減し、FLOP を 46% 削減し、GPU 推論レイテンシを 42% 削減した ×2 EDSR ネットワークは、基本的にロスレス パフォーマンスです。
Modern single image super-resolution (SISR) system based on convolutional neural networks (CNNs) achieves fancy performance while requires huge computational costs. The problem on feature redundancy is well studied in visual recognition task, but rarely discussed in SISR. Based on the observation that many features in SISR models are also similar to each other, we propose to use shift operation to generate the redundant features (i.e., ghost features). Compared with depth-wise convolution which is time-consuming on GPU-like devices, shift operation can bring a practical inference acceleration for CNNs on common hardwares. We analyze the benefits of shift operation on SISR task and make the shift orientation learnable based on Gumbel-Softmax trick. Besides, a clustering procedure is explored based on pre-trained models to identify the intrinsic filters for generating intrinsic features. The ghost features will be derived by moving these intrinsic features along a specific orientation. Finally, the complete output features are constructed by concatenating the intrinsic and ghost features together. Extensive experiments on several benchmark models and datasets demonstrate that both the non-compact and lightweight SISR models embedded with the proposed method can achieve a comparable performance to that of their baselines with a large reduction of parameters, FLOPs and GPU inference latency. For instance, we reduce the parameters by 46%, FLOPs by 46% and GPU inference latency by 42% of ×2 EDSR network with basically lossless performance.