ビジョン トランスフォーマー (ViT) は、その優れたスケーラビリティ、計算効率、および多くのビジョン タスクにおける魅力的なパフォーマンスにより、最も人気のあるニューラル アーキテクチャの 1 つになりました。ただし、ViT はデータを大量に消費する性質と注釈付きの医療データがないため、医療タスクでは畳み込みニューラル ネットワーク (CNN) よりも劣ったパフォーマンスを示しています。この論文では、各画像の小さな部分から欠落しているピクセルを再構築するマスク オートエンコーダー (MAE) を使用して、266,340 の胸部 X 線で ViT を事前トレーニングします。比較のために、CNN も同じ 266,340 X 線で高度な自己教師あり手法 (MoCo v2 など) を使用して事前トレーニングされています。この結果は、マルチラベルの胸部疾患分類において、事前トレーニング済みの ViT が最先端の CNN (DenseNet-121) と同等の (場合によってはより優れた) パフォーマンスを発揮することを示しています。このパフォーマンスは、事前トレーニングと ViT の微調整に関する実証研究から抽出された強力なレシピによるものです。事前トレーニング レシピは、自然画像と比較して、医学的再構築に必要な画像の割合がはるかに少なく (10% 対 25%)、ランダムにサイズ変更された切り抜き範囲がより適度であること (0.5~1.0 対 0.2~1.0) を意味します。さらに、可能な限りドメイン内転移学習が推奨されることに注意してください。微調整レシピは、レイヤー単位の LR 減衰、RandAug の大きさ、および DropPath レートが考慮すべき重要な要素であることを示しています。この研究が、より多様な医用画像処理タスクへのトランスフォーマーの適用に関する将来の研究を導くことができることを願っています。
Vision Transformer (ViT) has become one of the most popular neural architectures due to its great scalability, computational efficiency, and compelling performance in many vision tasks. However, ViT has shown inferior performance to Convolutional Neural Network (CNN) on medical tasks due to its data-hungry nature and the lack of annotated medical data. In this paper, we pre-train ViTs on 266,340 chest X-rays using Masked Autoencoders (MAE) which reconstruct missing pixels from a small part of each image. For comparison, CNNs are also pre-trained on the same 266,340 X-rays using advanced self-supervised methods (e.g., MoCo v2). The results show that our pre-trained ViT performs comparably (sometimes better) to the state-of-the-art CNN (DenseNet-121) for multi-label thorax disease classification. This performance is attributed to the strong recipes extracted from our empirical studies for pre-training and fine-tuning ViT. The pre-training recipe signifies that medical reconstruction requires a much smaller proportion of an image (10% vs. 25%) and a more moderate random resized crop range (0.5~1.0 vs. 0.2~1.0) compared with natural imaging. Furthermore, we remark that in-domain transfer learning is preferred whenever possible. The fine-tuning recipe discloses that layer-wise LR decay, RandAug magnitude, and DropPath rate are significant factors to consider. We hope that this study can direct future research on the application of Transformers to a larger variety of medical imaging tasks.