自然言語処理 (NLP) では、トランスフォーマーはアテンション ベースのエンコーダー/デコーダー モデルを利用することで、すでにこの分野に革命を起こしています。最近、一部の先駆的な研究では、コンピューター ビジョン (CV) に Transformer のようなアーキテクチャが採用されており、画像分類、オブジェクト検出、セマンティック セグメンテーションなどのタスクでこれらのアーキテクチャの優れたパフォーマンスが報告されています。ビジョン トランスフォーマー (ViT) は、その競争力のあるモデリング機能により、畳み込みニューラル ネットワーク (CNN) よりも優れたパフォーマンスの向上を実証しています。ただし、これらのアーキテクチャは大量の計算リソースを必要とするため、これらのモデルをリソースに制約のあるアプリケーションに展開することは困難です。この問題に対処するために、圧縮トランスフォーマーや、膨張畳み込み、最小最大プーリング、1D 畳み込みなどの圧縮機能など、多くのソリューションが開発されています。モデル圧縮は、潜在的な解決策として、最近かなりの研究注目を集めています。重みの量子化、重みの多重化、枝刈り、知識蒸留 (KD) など、多くのモデル圧縮方法が文献で提案されています。ただし、重みの量子化、プルーニング、重みの多重化などの手法では、通常、圧縮を実行するための複雑なパイプラインが必要になります。 KD は、比較的単純なモデルが複雑なモデルとほぼ同じくらい正確にタスクを実行できるようにする、単純で非常に効果的なモデル圧縮手法であることがわかっています。このホワイト ペーパーでは、ViT モデルを効果的に圧縮するための KD に基づくさまざまなアプローチについて説明します。この論文では、これらのモデルの計算とメモリの要件を軽減する上で KD が果たす役割を説明しています。このホワイトペーパーでは、まだ解決されていない ViT が直面するさまざまな課題についても説明しています。
In Natural Language Processing (NLP), Transformers have already revolutionized the field by utilizing an attention-based encoder-decoder model. Recently, some pioneering works have employed Transformer-like architectures in Computer Vision (CV) and they have reported outstanding performance of these architectures in tasks such as image classification, object detection, and semantic segmentation. Vision Transformers (ViTs) have demonstrated impressive performance improvements over Convolutional Neural Networks (CNNs) due to their competitive modelling capabilities. However, these architectures demand massive computational resources which makes these models difficult to be deployed in the resource-constrained applications. Many solutions have been developed to combat this issue, such as compressive transformers and compression functions such as dilated convolution, min-max pooling, 1D convolution, etc. Model compression has recently attracted considerable research attention as a potential remedy. A number of model compression methods have been proposed in the literature such as weight quantization, weight multiplexing, pruning and Knowledge Distillation (KD). However, techniques like weight quantization, pruning and weight multiplexing typically involve complex pipelines for performing the compression. KD has been found to be a simple and much effective model compression technique that allows a relatively simple model to perform tasks almost as accurately as a complex model. This paper discusses various approaches based upon KD for effective compression of ViT models. The paper elucidates the role played by KD in reducing the computational and memory requirements of these models. The paper also presents the various challenges faced by ViTs that are yet to be resolved.