超解像度 (SR) ネットワークはしばらく研究されており、最近ではそのモバイル バージョンや軽量バージョンが顕著に人気を集めています。ネットワーク パラメータ (主に FP32 から INT8) の精度を下げる手順である量子化は、モバイル互換性を確立するために SR ネットワークでも利用されます。この研究は、非常に重要だがほとんど見落とされているポストトレーニング量子化 (PTQ) ステップ、つまり PTQ の量子化範囲を調整する代表データセット (RD) に焦点を当てています。 FP32 モデルの出力のみを使用して RD 画像を巧みに拡張するための、広範な実験的根拠に裏付けられた新しいパイプライン (クリップフリー量子化パイプライン、CFQP) を提案します。 RD 用に提案されたパイプラインを使用すると、不要なクリップされたアクティベーション レイヤーを正常に削除できます。これは、実行時の大きなオーバーヘッドと引き換えに、モデルを PTQ に対してより堅牢にするためにほぼすべてのモバイル SR メソッドを利用します。私たちの方法でクリップされたアクティベーションを削除すると、全体的な安定性が大幅に向上し、一部の SR モデルで推論実行時間が最大 54% 短縮され、INT8 クリップ モデルと比較して視覚的な品質の結果が向上し、実行時間と視覚的な品質の両方で一部の FP32 非量子化モデルさえも優れています。 、クリップされたアクティベーションで再トレーニングする必要はありません。
Super-resolution (SR) networks have been investigated for a while, with their mobile and lightweight versions gaining noticeable popularity recently. Quantization, the procedure of decreasing the precision of network parameters (mostly FP32 to INT8), is also utilized in SR networks for establishing mobile compatibility. This study focuses on a very important but mostly overlooked post-training quantization (PTQ) step: representative dataset (RD), which adjusts the quantization range for PTQ. We propose a novel pipeline (clip-free quantization pipeline, CFQP) backed up with extensive experimental justifications to cleverly augment RD images by only using outputs of the FP32 model. Using the proposed pipeline for RD, we can successfully eliminate unwanted clipped activation layers, which nearly all mobile SR methods utilize to make the model more robust to PTQ in return for a large overhead in runtime. Removing clipped activations with our method significantly benefits overall increased stability, decreased inference runtime up to 54% on some SR models, better visual quality results compared to INT8 clipped models - and outperforms even some FP32 non-quantized models, both in runtime and visual quality, without the need for retraining with clipped activation.