量子化は、ニューラル ネットワーク内の浮動小数点の重みと活性化を下位ビットの整数に変換することで効率的なモデルを取得するモデル圧縮手法として広く採用されています。量子化は、畳み込みニューラル ネットワークと変換器ベースのモデルでうまく機能することが証明されています。これらのモデルの妥当性にもかかわらず、最近の研究では、MLP ベースのモデルがコンピューター ビジョン、NLP から 3D ポイント クラウドに至るまでのさまざまなタスクで同等の結果を達成できると同時に、並列処理とネットワークの単純さにより高いスループットを達成できることが示されています。ただし、論文で示しているように、MLP ベースのモデルに量子化を直接適用すると、精度が大幅に低下します。私たちの分析に基づくと、2 つの主要な問題が精度のギャップを説明しています。1) MLP ベースのモデルのアクティベーションの範囲が大きすぎて量子化できないこと、および 2) MLP ベースのモデルの特定のコンポーネントが量子化の影響を受けやすいことです。したがって、1) 活性化の量子化範囲を制御するために LayerNorm を適用する、2) 有界活性化関数を利用する、3) 活性化にパーセンタイル量子化を適用する、4) 複数のトークン混合 MLP という名前の改良されたモジュールを使用する、5) 線形を適用することを提案します。機密操作のための非対称量子化器。上記の手法を備えた当社の Q-MLP モデルは、ImageNet で 8 ビット一様量子化 (モデル サイズ 30 MB) で 79.68%、4 ビット量子化 (15 MB) で 78.47% の精度を達成できます。
Quantization is wildly taken as a model compression technique, which obtains efficient models by converting floating-point weights and activations in the neural network into lower-bit integers. Quantization has been proven to work well on convolutional neural networks and transformer-based models. Despite the decency of these models, recent works have shown that MLP-based models are able to achieve comparable results on various tasks ranging from computer vision, NLP to 3D point cloud, while achieving higher throughput due to the parallelism and network simplicity. However, as we show in the paper, directly applying quantization to MLP-based models will lead to significant accuracy degradation. Based on our analysis, two major issues account for the accuracy gap: 1) the range of activations in MLP-based models can be too large to quantize, and 2) specific components in the MLP-based models are sensitive to quantization. Consequently, we propose to 1) apply LayerNorm to control the quantization range of activations, 2) utilize bounded activation functions, 3) apply percentile quantization on activations, 4) use our improved module named multiple token-mixing MLPs, and 5) apply linear asymmetric quantizer for sensitive operations. Equipped with the abovementioned techniques, our Q-MLP models can achieve 79.68% accuracy on ImageNet with 8-bit uniform quantization (model size 30 MB) and 78.47% with 4-bit quantization (15 MB).