データフリー量子化は、モデル圧縮におけるデータのプライバシーとセキュリティの問題に対処できる可能性があるため、広く調査されています。最近、PSAQ-ViT は、事前トレーニングされたビジョン トランスフォーマー (ViT) からデータを生成するために相対値メトリックであるパッチ類似性を設計し、ViT のデータフリー量子化の最初の試みを達成しました。この論文では、PSAQ-ViT 上に構築された、ViT 用のより正確で一般的なデータフリー量子化フレームワークである PSAQ-ViT V2 を提案します。より具体的には、PSAQ-ViT のパッチ類似性メトリクスに従って、適応的な教師と生徒の戦略を導入します。これにより、生成されたサンプルと量子化モデル (生徒) の一定の周期的進化が、教師の監督の下で競合的かつ対話的に促進されます。完全精度モデル (教師) を使用できるため、量子化モデルの精度が大幅に向上します。さらに、補助カテゴリのガイダンスなしで、タスクおよびモデルに依存しない事前情報を採用し、汎用スキームを広範囲の視覚タスクおよびモデルと互換性のあるものにします。画像分類、物体検出、セマンティック セグメンテーション タスクに関するさまざまなモデルで広範な実験が行われており、PSAQ-ViT V2 は、単純な量子化戦略を使用し、実世界のデータにアクセスすることなく、一貫して競争力のある結果を達成し、強力なベースラインとしての可能性を示しています。 ViT のデータフリー量子化について。たとえば、(バックボーン) モデルとして Swin-S を使用すると、8 ビット量子化は ImageNet で 82.13 トップ 1 精度、COCO で 50.9 ボックス AP と 44.1 マスク AP、ADE20K で 47.2 mIoU に達します。私たちは、正確かつ汎用的な PSAQ-ViT V2 が、機密データを含む現実世界のアプリケーションにおける潜在的および実践的なソリューションとして機能することを期待しています。コードは https://github.com/zkkli/PSAQ-ViT でリリースおよびマージされます。
Data-free quantization can potentially address data privacy and security concerns in model compression, and thus has been widely investigated. Recently, PSAQ-ViT designs a relative value metric, patch similarity, to generate data from pre-trained vision transformers (ViTs), achieving the first attempt at data-free quantization for ViTs. In this paper, we propose PSAQ-ViT V2, a more accurate and general data-free quantization framework for ViTs, built on top of PSAQ-ViT. More specifically, following the patch similarity metric in PSAQ-ViT, we introduce an adaptive teacher-student strategy, which facilitates the constant cyclic evolution of the generated samples and the quantized model (student) in a competitive and interactive fashion under the supervision of the full-precision model (teacher), thus significantly improving the accuracy of the quantized model. Moreover, without the auxiliary category guidance, we employ the task- and model-independent prior information, making the general-purpose scheme compatible with a broad range of vision tasks and models. Extensive experiments are conducted on various models on image classification, object detection, and semantic segmentation tasks, and PSAQ-ViT V2, with the naive quantization strategy and without access to real-world data, consistently achieves competitive results, showing potential as a powerful baseline on data-free quantization for ViTs. For instance, with Swin-S as the (backbone) model, 8-bit quantization reaches 82.13 top-1 accuracy on ImageNet, 50.9 box AP and 44.1 mask AP on COCO, and 47.2 mIoU on ADE20K. We hope that accurate and general PSAQ-ViT V2 can serve as a potential and practice solution in real-world applications involving sensitive data. Code is released and merged at: https://github.com/zkkli/PSAQ-ViT.