ディープラーニングテクノロジーは、医師がCOVID-19感染を迅速かつ正確に特定するのに役立つ支援テクノロジーとして使用できます。最近、Vision Transformer(ViT)は、そのグローバルな受容野により、画像分類に大きな可能性を示しています。ただし、CNNに固有の誘導バイアスがないため、ViTベースの構造では、機能の豊富さが制限され、モデルのトレーニングが困難になります。この論文では、小さなCOVID-19データセットでのViTベースのアーキテクチャのパフォーマンスを向上させるために、Transformer for COVID-19(COVT)と呼ばれる新しい構造を提案します。 CNNを特徴抽出器として使用して、ローカル構造情報を効果的に抽出し、グローバル情報用のViTの多層パーセプトロン(MLP)モジュールに平均プーリングを導入します。実験は、2つのCOVID-19データセットとImageNetデータセットに対する私たちの方法の有効性を示しています。
Deep learning technology can be used as an assistive technology to help doctors quickly and accurately identify COVID-19 infections. Recently, Vision Transformer (ViT) has shown great potential towards image classification due to its global receptive field. However, due to the lack of inductive biases inherent to CNNs, the ViT-based structure leads to limited feature richness and difficulty in model training. In this paper, we propose a new structure called Transformer for COVID-19 (COVT) to improve the performance of ViT-based architectures on small COVID-19 datasets. It uses CNN as a feature extractor to effectively extract local structural information, and introduces average pooling to ViT's Multilayer Perception(MLP) module for global information. Experiments show the effectiveness of our method on the two COVID-19 datasets and the ImageNet dataset.