arXiv reaDer
ViTのブートストラップ:事前トレーニングからのビジョントランスフォーマーの解放に向けて
Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-training
最近、ビジョントランスフォーマー(ViT)は急速に発展しており、コンピュータービジョン(CV)の領域で畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めています。畳み込みのハードコードされた誘導バイアスに代わる汎用のTransformerアーキテクチャにより、ViTは、特にデータが十分な状況でCNNを上回りました。ただし、ViTは小さなデータセットに過剰に適合しがちであるため、膨大な時間を費やす大規模な事前トレーニングに依存します。このホワイトペーパーでは、CNNの誘導バイアスをViTに導入し、ネットワークアーキテクチャを維持して上限を引き上げ、より適切な最適化目標を設定することで、ViTを事前トレーニングから解放するよう努めています。まず、エージェントCNNは、誘導バイアスのある特定のViTに基づいて設計されています。次に、ブートストラップトレーニングアルゴリズムが提案され、ウェイトシェアリングを使用してエージェントとViTを共同で最適化します。その間、ViTはエージェントの中間機能から誘導バイアスを学習します。限られたトレーニングデータを使用したCIFAR-10/100およびImageNet-1kでの広範な実験により、誘導バイアスがViTの収束を大幅に高速化し、パラメーターがさらに少ない従来のCNNよりも優れているという有望な結果が示されました。私たちのコードはhttps://github.com/zhfeing/Bootstrapping-ViTs-pytorchで公開されています。
Recently, vision Transformers (ViTs) are developing rapidly and starting to challenge the domination of convolutional neural networks (CNNs) in the realm of computer vision (CV). With the general-purpose Transformer architecture replacing the hard-coded inductive biases of convolution, ViTs have surpassed CNNs, especially in data-sufficient circumstances. However, ViTs are prone to over-fit on small datasets and thus rely on large-scale pre-training, which expends enormous time. In this paper, we strive to liberate ViTs from pre-training by introducing CNNs' inductive biases back to ViTs while preserving their network architectures for higher upper bound and setting up more suitable optimization objectives. To begin with, an agent CNN is designed based on the given ViT with inductive biases. Then a bootstrapping training algorithm is proposed to jointly optimize the agent and ViT with weight sharing, during which the ViT learns inductive biases from the intermediate features of the agent. Extensive experiments on CIFAR-10/100 and ImageNet-1k with limited training data have shown encouraging results that the inductive biases help ViTs converge significantly faster and outperform conventional CNNs with even fewer parameters. Our code is publicly available at https://github.com/zhfeing/Bootstrapping-ViTs-pytorch.
updated: Wed Mar 23 2022 07:39:04 GMT+0000 (UTC)
published: Tue Dec 07 2021 07:56:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト