arXiv reaDer
医用画像分類タスクにおける自己監視機能はどの程度転送可能ですか?
How Transferable Are Self-supervised Features in Medical Image Classification Tasks?
転移学習は、医学的分類タスクにおけるラベル付きデータの不足を軽減するための標準的な方法になっています。教師ありImageNet事前トレーニング機能を使用してダウンストリームタスクを微調整することは簡単で、多くの作業で広範囲に調査されていますが、自己教師あり事前トレーニングの有用性に関する研究はほとんどありません。この論文では、選択された医学的分類タスクで3つの自己教師あり手法(SimCLR、SwAV、およびDINO)から事前トレーニングされた機能で初期化されたモデルのパフォーマンスを評価することにより、ImageNet自己教師あり事前トレーニングの転送可能性を評価します。選択されたタスクは、センチネル腋窩リンパ節画像での腫瘍検出、眼底画像での糖尿病性網膜症の分類、および胸部X線画像での複数の病的状態の分類をカバーしています。自己監視ありの事前トレーニング済みモデルは、監視ありのモデルよりも豊富な埋め込みを生成することを示します。これは、線形評価と微調整の両方の観点から、ダウンストリームタスクに役立ちます。たとえば、データの非常に小さなサブセットでの線形評価を考慮すると、糖尿病性網膜症分類タスクでカッパスコアが最大14.79%、腫瘍分類タスクでAUCが5.4%、肺炎で7.03%AUCの改善が見られます。検出、および胸部X線の病的状態の検出におけるAUCの9.4%。さらに、複数のモデルから事前にトレーニングされた埋め込みを融合するエンドツーエンドの転送学習アプローチとして、Dynamic Visual Meta-Embedding(DVME)を紹介します。 DVMEによって取得された集合表現は、単一の事前トレーニング済みモデルアプローチを使用する場合と比較して、選択したタスクのパフォーマンスを大幅に向上させ、事前トレーニング済みモデルの任意の組み合わせに一般化できることを示します。
Transfer learning has become a standard practice to mitigate the lack of labeled data in medical classification tasks. Whereas finetuning a downstream task using supervised ImageNet pretrained features is straightforward and extensively investigated in many works, there is little study on the usefulness of self-supervised pretraining. In this paper, we assess the transferability of ImageNet self-supervisedpretraining by evaluating the performance of models initialized with pretrained features from three self-supervised techniques (SimCLR, SwAV, and DINO) on selected medical classification tasks. The chosen tasks cover tumor detection in sentinel axillary lymph node images, diabetic retinopathy classification in fundus images, and multiple pathological condition classification in chest X-ray images. We demonstrate that self-supervised pretrained models yield richer embeddings than their supervised counterpart, which benefits downstream tasks in view of both linear evaluation and finetuning. For example, in view of linear evaluation at acritically small subset of the data, we see an improvement up to 14.79% in Kappa score in the diabetic retinopathy classification task, 5.4% in AUC in the tumor classification task, 7.03% AUC in the pneumonia detection, and 9.4% in AUC in the detection of pathological conditions in chest X-ray. In addition, we introduce Dynamic Visual Meta-Embedding (DVME) as an end-to-end transfer learning approach that fuses pretrained embeddings from multiple models. We show that the collective representation obtained by DVME leads to a significant improvement in the performance of selected tasks compared to using a single pretrained model approach and can be generalized to any combination of pretrained models.
updated: Tue Nov 30 2021 12:36:27 GMT+0000 (UTC)
published: Mon Aug 23 2021 10:39:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト