ビジョン トランスフォーマー (ViT) 量子化は、リソースが限られたデバイス上で事前にトレーニングされた大規模なネットワークの展開を容易にする有望な可能性を提供します。 ViT の量子化を限界まで押し上げる完全 2 値化 ViT (Bi-ViT) は、そのパフォーマンスが許容できないため、ほとんど未解明であり、非常に困難な課題です。広範な実証分析を通じて、ViT の二値化の深刻な低下は、技術的には勾配消失とランキング障害に起因する自己注意における注意の歪みによって引き起こされることを特定しました。これらの問題に対処するために、最初に学習可能なスケーリング係数を導入して、消失した勾配を再アクティブ化し、理論的および実験的分析を通じてその有効性を示します。次に、教師と生徒の枠組みにおける不規則なランキングを修正するために、ランキングを意識した蒸留方法を提案します。 Bi-ViT は、トップ 1 の精度と FLOP の点で、一般的な DeiT および Swin バックボーンに比べて大幅な向上を実現します。たとえば、DeiT-Tiny と Swin-Tiny を使用した場合、私たちの方法はベースラインをそれぞれ 22.1% と 21.4% 大幅に上回り、ImageNet の実数値の対応物と比較して、FLOP で理論上 61.5 倍と 56.1 倍の加速を実現しました。
Vision transformers (ViTs) quantization offers a promising prospect to facilitate deploying large pre-trained networks on resource-limited devices. Fully-binarized ViTs (Bi-ViT) that pushes the quantization of ViTs to its limit remain largely unexplored and a very challenging task yet, due to their unacceptable performance. Through extensive empirical analyses, we identify the severe drop in ViT binarization is caused by attention distortion in self-attention, which technically stems from the gradient vanishing and ranking disorder. To address these issues, we first introduce a learnable scaling factor to reactivate the vanished gradients and illustrate its effectiveness through theoretical and experimental analyses. We then propose a ranking-aware distillation method to rectify the disordered ranking in a teacher-student framework. Bi-ViT achieves significant improvements over popular DeiT and Swin backbones in terms of Top-1 accuracy and FLOPs. For example, with DeiT-Tiny and Swin-Tiny, our method significantly outperforms baselines by 22.1% and 21.4% respectively, while 61.5x and 56.1x theoretical acceleration in terms of FLOPs compared with real-valued counterparts on ImageNet.