転移学習は、大規模なデータセットで事前トレーニングされたパラメーターを使用して深層学習モデルを初期化することで、深層学習モデルのパフォーマンスを向上させます。直感的には、事前トレーニングがドメイン内のデータセットに対して行われる場合、転移学習はより効果的です。 NASA による最近の研究では、エンコーダ/デコーダ アルゴリズムによる微細構造のセグメンテーションは、自然画像で事前トレーニングされた CNN エンコーダよりも、顕微鏡画像で事前トレーニングされた CNN エンコーダの方がより効果的であることが実証されました。ただし、CNN モデルは画像内の局所的な空間関係のみをキャプチャします。近年、Transformer などのアテンション ネットワークが、ピクセル間の長距離関係を捉える画像分析で使用されることが増えています。この研究では、顕微鏡画像で事前トレーニングされた Transformer および CNN モデルのセグメンテーション パフォーマンスを、自然画像で事前トレーニングされたモデルと比較します。私たちの結果は、顕微鏡画像で事前トレーニングすると、分布外の画像(異なるイメージングとサンプル条件で撮影された)のセグメンテーションのパフォーマンスが大幅に向上するという NASA の研究を部分的に裏付けています。ただし、Transformers を使用した場合のワンショット学習と数ショット学習のパフォーマンスの向上はより控えめです。また、画像セグメンテーションでは、事前トレーニングされた Transformer と CNN エンコーダーを組み合わせた方が、事前トレーニングされた CNN エンコーダー単独よりも一貫して優れていることがわかりました。私たちのデータセット (約 50,000 枚の画像) は、NASA データセットの公開部分と私たちが収集した追加画像を組み合わせたものです。トレーニング データがはるかに少ない場合でも、事前トレーニングされたモデルは画像セグメンテーションのパフォーマンスが大幅に向上しています。この結果は、Transformer と CNN が相互に補完し合い、顕微鏡画像で事前トレーニングされた場合、下流のタスクにとってより有益であることを示唆しています。
Transfer learning improves the performance of deep learning models by initializing them with parameters pre-trained on larger datasets. Intuitively, transfer learning is more effective when pre-training is on the in-domain datasets. A recent study by NASA has demonstrated that the microstructure segmentation with encoder-decoder algorithms benefits more from CNN encoders pre-trained on microscopy images than from those pre-trained on natural images. However, CNN models only capture the local spatial relations in images. In recent years, attention networks such as Transformers are increasingly used in image analysis to capture the long-range relations between pixels. In this study, we compare the segmentation performance of Transformer and CNN models pre-trained on microscopy images with those pre-trained on natural images. Our result partially confirms the NASA study that the segmentation performance of out-of-distribution images (taken under different imaging and sample conditions) is significantly improved when pre-training on microscopy images. However, the performance gain for one-shot and few-shot learning is more modest with Transformers. We also find that for image segmentation, the combination of pre-trained Transformers and CNN encoders are consistently better than pre-trained CNN encoders alone. Our dataset (of about 50,000 images) combines the public portion of the NASA dataset with additional images we collected. Even with much less training data, our pre-trained models have significantly better performance for image segmentation. This result suggests that Transformers and CNN complement each other and when pre-trained on microscopy images, they are more beneficial to the downstream tasks.