白質病変と深い灰白質構造のセグメンテーションは、多発性硬化症の磁気共鳴画像法の定量化における重要なタスクです。この論文では、マルチモーダルMRイメージングで病変と灰白質構造の高速で信頼性の高いセグメンテーションを提供するための畳み込みニューラルネットワーク(CNN)に基づくセグメンテーションソリューションと、中心外のデータに適用した場合のこれらの方法のパフォーマンスについて説明します。 。 2016 MSSEGトレーニングデータセットで2つの最先端の完全畳み込みCNNアーキテクチャをトレーニングしました。これは、7人の独立した人間の評価者によって注釈が付けられました。3DUnetのリファレンス実装と、最近提案された3Dから2Dへのアーキテクチャ(ディープスキャン)。次に、他の脳構造のラベルがある場合とない場合で、単一のセンターからのより大きなデータセットでこれらのメソッドを再トレーニングしました。データセットのシフトによるパフォーマンスの変化と、脳構造ラベルを追加することによるパフォーマンスの変化を定量化しました。また、パフォーマンスを無料で入手できる参照方法と比較しました。両方の完全畳み込みCNN法は、MSSEGデータセットの相互検証でトレーニングおよび評価された場合、文献の他のアプローチを大幅に上回り、人間の評価者間変動の範囲で人間の評価者との一致を示しています。どちらのアーキテクチャも、単一センターのデータでトレーニングし、MSSEGデータセットでテストすると、パフォーマンスの低下を示しました。 Freesurferから派生した弱い解剖学的ラベルを追加してトレーニングすると、3D Unetのパフォーマンスが低下し、DeepSCANネットのパフォーマンスが向上しました。全体として、病変と解剖学的ラベルの両方を予測するDeepSCANネットワークは、調査した中で最もパフォーマンスの高いネットワークでした。
Segmentation of white matter lesions and deep grey matter structures is an important task in the quantification of magnetic resonance imaging in multiple sclerosis. In this paper we explore segmentation solutions based on convolutional neural networks (CNNs) for providing fast, reliable segmentations of lesions and grey-matter structures in multi-modal MR imaging, and the performance of these methods when applied to out-of-centre data. We trained two state-of-the-art fully convolutional CNN architectures on the 2016 MSSEG training dataset, which was annotated by seven independent human raters: a reference implementation of a 3D Unet, and a more recently proposed 3D-to-2D architecture (DeepSCAN). We then retrained those methods on a larger dataset from a single centre, with and without labels for other brain structures. We quantified changes in performance owing to dataset shift, and changes in performance by adding the additional brain-structure labels. We also compared performance with freely available reference methods. Both fully-convolutional CNN methods substantially outperform other approaches in the literature when trained and evaluated in cross-validation on the MSSEG dataset, showing agreement with human raters in the range of human inter-rater variability. Both architectures showed drops in performance when trained on single-centre data and tested on the MSSEG dataset. When trained with the addition of weak anatomical labels derived from Freesurfer, the performance of the 3D Unet degraded, while the performance of the DeepSCAN net improved. Overall, the DeepSCAN network predicting both lesion and anatomical labels was the best-performing network examined.