arXiv reaDer
医療画像分析のためのマスクされたオートエンコーダによる自己事前トレーニング
Self Pre-training with Masked Autoencoders for Medical Image Analysis
マスクされたオートエンコーダー(MAE)は、自然な画像分析のためのビジョントランスフォーマー(ViT)の事前トレーニングに効果的であることが最近示されました。部分的な観察のみから元の画像を再構築するという口実のタスクを実行することにより、ViTであるエンコーダーは、マスクされた画像領域のコンテンツを推測するためにコンテキスト情報を集約するように促されます。このコンテキスト集約機能は、各解剖学的構造が他の構造や領域に機能的および機械的に接続されている医用画像ドメインにも不可欠であると考えています。ただし、事前トレーニング用のImageNetスケールの医用画像データセットはありません。したがって、この論文では、医用画像のMAEを使用した自己事前トレーニングパラダイムを調査します。つまり、モデルは同じターゲットデータセットで事前トレーニングされます。 MAEの自己事前トレーニングを検証するために、胸部X線疾患分類、CT腹部多臓器セグメンテーション、MRI脳腫瘍セグメンテーションを含む3つの多様な医用画像タスクを検討します。 MAEの自己事前トレーニングは、すべてのタスクに著しくメリットをもたらします。具体的には、肺疾患分類のmAUCが9.4%増加します。脳腫瘍のセグメンテーションに関する平均DSCは77.4%から78.9%に改善されています。最も興味深いことに、小規模な多臓器セグメンテーションデータセット(N = 30)では、平均DSCが78.8%から83.5%に向上し、HD95が60%減少し、限られたデータシナリオでの有効性を示しています。セグメンテーションと分類の結果は、医療画像分析のためのMAE自己事前トレーニングの有望な可能性を明らかにしています。
Masked Autoencoder (MAE) has recently been shown to be effective in pre-training Vision Transformers (ViT) for natural image analysis. By performing the pretext task of reconstructing the original image from only partial observations, the encoder, which is a ViT, is encouraged to aggregate contextual information to infer content in masked image regions. We believe that this context aggregation ability is also essential to the medical image domain where each anatomical structure is functionally and mechanically connected to other structures and regions. However, there is no ImageNet-scale medical image dataset for pre-training. Thus, in this paper, we investigate a self pre-training paradigm with MAE for medical images, i.e., models are pre-trained on the same target dataset. To validate the MAE self pre-training, we consider three diverse medical image tasks including chest X-ray disease classification, CT abdomen multi-organ segmentation and MRI brain tumor segmentation. It turns out MAE self pre-training benefits all the tasks markedly. Specifically, the mAUC on lung disease classification is increased by 9.4%. The average DSC on brain tumor segmentation is improved from 77.4% to 78.9%. Most interestingly, on the small-scale multi-organ segmentation dataset (N=30), the average DSC improves from 78.8% to 83.5% and the HD95 is reduced by 60%, indicating its effectiveness in limited data scenarios. The segmentation and classification results reveal the promising potential of MAE self pre-training for medical image analysis.
updated: Thu Mar 10 2022 16:22:38 GMT+0000 (UTC)
published: Thu Mar 10 2022 16:22:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト