マルチモーダル磁気共鳴画像法 (MRI) は、脳腫瘍のサブ領域分析のための補完的な情報を提供します。 4 つの一般的な MRI モダリティを使用した自動脳腫瘍セグメンテーションのために多くの方法が提案されており、顕著な性能を達成しています。ただし、実際には、画像の破損、アーティファクト、取得プロトコル、造影剤に対するアレルギー、または単にコストが原因で、1 つまたは複数のモダリティが欠落していることがよくあります。この作業では、モダリティが欠落している脳腫瘍のセグメンテーションのための新しい 2 段階のフレームワークを提案します。第 1 段階では、ランダム モダリティ (つまり、モダリティ ドロップアウト) と残りのモダリティのランダム パッチの両方が再構成タスクのためにマスクされ、欠落に対するロバストなマルチモーダル表現の自己教師あり学習のために、マルチモーダル マスク オートエンコーダ (M3AE) が提案されます。モダリティ。この目的のために、フレームワークに M3AE という名前を付けます。一方、モデルの反転を使用して、代表的なフルモーダル画像を最小限の追加コストで最適化します。これは、欠落しているモダリティを置き換え、推論中のパフォーマンスを向上させるために使用されます。次に、第 2 段階では、教師付きセグメンテーションのモデルを微調整しながら、メモリ効率の高い自己蒸留が提案され、異種のミッシング モーダル状況の間で知識が抽出されます。当社の M3AE は、単一のモデルを可能なすべてのモダリティのサブセットに適用できる「キャッチオール」のジャンルに属しているため、トレーニングと展開の両方で経済的です。 BraTS 2018 および 2020 のデータセットに関する広範な実験により、モダリティが欠落している既存の最先端の方法よりも優れたパフォーマンスと、そのコンポーネントの有効性が実証されています。コードは https://github.com/ccarliu/m3ae で入手できます。
Multimodal magnetic resonance imaging (MRI) provides complementary information for sub-region analysis of brain tumors. Plenty of methods have been proposed for automatic brain tumor segmentation using four common MRI modalities and achieved remarkable performance. In practice, however, it is common to have one or more modalities missing due to image corruption, artifacts, acquisition protocols, allergy to contrast agents, or simply cost. In this work, we propose a novel two-stage framework for brain tumor segmentation with missing modalities. In the first stage, a multimodal masked autoencoder (M3AE) is proposed, where both random modalities (i.e., modality dropout) and random patches of the remaining modalities are masked for a reconstruction task, for self-supervised learning of robust multimodal representations against missing modalities. To this end, we name our framework M3AE. Meanwhile, we employ model inversion to optimize a representative full-modal image at marginal extra cost, which will be used to substitute for the missing modalities and boost performance during inference. Then in the second stage, a memory-efficient self distillation is proposed to distill knowledge between heterogenous missing-modal situations while fine-tuning the model for supervised segmentation. Our M3AE belongs to the 'catch-all' genre where a single model can be applied to all possible subsets of modalities, thus is economic for both training and deployment. Extensive experiments on BraTS 2018 and 2020 datasets demonstrate its superior performance to existing state-of-the-art methods with missing modalities, as well as the efficacy of its components. Our code is available at: https://github.com/ccarliu/m3ae.