The reliability of a deep learning model in clinical out-of-distribution MRI data: a multicohort study
 ディープラーニング(DL)手法は、近年、医用画像処理において印象的な結果を生み出しており、放射線科医の臨床支援として機能する可能性があります。ただし、医療画像のDLモデルは、多くの場合、単一のスキャナーまたは厳密なプロトコル調整で取得された画像を使用して、公共の研究コホートでトレーニングされます。この研究の目的は、異なるスキャナー、プロトコル、および疾患集団で収集された、目に見えない臨床データセットでDLモデルがどれだけうまく機能するか、およびより異種のトレーニングデータが一般化を改善するかどうかを調査することでした。合計で、複数の認知症研究コホートおよび記憶クリニックからの脳の3117 MRIスキャンが、Scheltensの内側側頭萎縮(MTA)のスケールに従って神経放射線科医によって視覚的に評価されていたが、この研究に含まれた。このデータのさまざまなサブセットで畳み込みニューラルネットワークの複数のバージョンをトレーニングしてMTA評価を予測することで、トレーニング中に広範な分布からの画像を含めることが外部メモリクリニックデータのパフォーマンスに与える影響を評価しました。我々の結果は、我々のモデルは訓練データと同様のプロトコルで取得したデータセットによく一般化したが、画像内で視覚的に異なる組織コントラストを持つ臨床コホートではかなり悪化することを示した。これは、分布外(OOD)MRIデータのパフォーマンスを調査する将来のDL研究では、信頼できる結果を得るために複数の外部コホートを評価する必要があることを意味します。さらに、より広範なスキャナーとプロトコルからのデータを含めることにより、OODデータのパフォーマンスが向上しました。これは、異種のトレーニングデータが多いほどモデルの一般化が促進されることを示しています。結論として、これはこれまでで最も包括的な研究であり、MRIデータのディープラーニングにおけるドメインシフトを調査しています。展開の認定を受ける前に、臨床データのDLモデルの厳密な評価を推奨します。
Deep learning (DL) methods have in recent years yielded impressive results in medical imaging, with the potential to function as clinical aid to radiologists. However, DL models in medical imaging are often trained on public research cohorts with images acquired with a single scanner or with strict protocol harmonization, which is not representative of a clinical setting. The aim of this study was to investigate how well a DL model performs in unseen clinical data sets---collected with different scanners, protocols and disease populations---and whether more heterogeneous training data improves generalization. In total, 3117 MRI scans of brains from multiple dementia research cohorts and memory clinics, that had been visually rated by a neuroradiologist according to Scheltens' scale of medial temporal atrophy (MTA), were included in this study. By training multiple versions of a convolutional neural network on different subsets of this data to predict MTA ratings, we assessed the impact of including images from a wider distribution during training had on performance in external memory clinic data. Our results showed that our model generalized well to data sets acquired with similar protocols as the training data, but substantially worse in clinical cohorts with visibly different tissue contrasts in the images. This implies that future DL studies investigating performance in out-of-distribution (OOD) MRI data need to assess multiple external cohorts for reliable results. Further, by including data from a wider range of scanners and protocols the performance improved in OOD data, which suggests that more heterogeneous training data makes the model generalize better. To conclude, this is the most comprehensive study to date investigating the domain shift in deep learning on MRI data, and we advocate rigorous evaluation of DL models on clinical data prior to being certified for deployment.
updated: Fri Nov 01 2019 15:52:16 GMT+0000 (UTC)
published: Fri Nov 01 2019 15:52:16 GMT+0000 (UTC)
