通常、医療画像のセグメンテーション後に人間のインザループ品質保証(QA)が実行され、システムが意図したとおりに実行されていること、および異常値を識別して除外します。以前はラベル付けされていなかった大規模なテストデータでQAを実行することにより、カテゴリカルQAスコアを生成できます。この論文では、従来のセグメンテーションモデルジェネレーターとQAに関連する弁別子で構成される半教師付き多臓器セグメンテーションディープニューラルネットワークを提案します。 2027ボリュームの大規模なデータセットを使用してジェネレーターをトレーニングし、その2次元モンタージュ画像とQAスコア付きのセグメンテーションマスクを使用して弁別器をトレーニングします。 QAスコアを生成するために、2次元モンタージュ画像を手動でレビューし、0(成功)、1(公開されたパフォーマンスと一致するエラー)、および2(総失敗)をコード化しました。次に、ResNet-18ネットワークは、3つすべてのコードラベルの均等分布で1623モンタージュ画像でトレーニングされ、テストコホートで保留された404モンタージュ画像で分類予測の精度94%を達成しました。 QA監督の使用のパフォーマンスを評価するために、弁別器は複数臓器セグメンテーションパイプラインの損失関数として使用されました。 QA損失機能を含めると、ラベルなしテストデータセットのパフォーマンスがベースラインモデルよりも714人の患者から951人の患者に向上しました。さらに、障害の数は606(29.90%)から402(19.83%)に減少しました。提案された方法の貢献は3つあります:(1)QAスコアを損失関数として使用して、ラベルなしデータの半教師あり学習を実行できること、(2)よく訓練された判別器が従来ではなくQAスコアによって学習されることを示しますtrue / false、および(3)ラベルなしデータセットでの複数臓器セグメンテーションのパフォーマンスは、元のベースラインメソッドよりも堅牢で高い精度で微調整できます。
Human in-the-loop quality assurance (QA) is typically performed after medical image segmentation to ensure that the systems are performing as intended, as well as identifying and excluding outliers. By performing QA on large-scale, previously unlabeled testing data, categorical QA scores can be generatedIn this paper, we propose a semi-supervised multi-organ segmentation deep neural network consisting of a traditional segmentation model generator and a QA involved discriminator. A large-scale dataset of 2027 volumes are used to train the generator, whose 2-D montage images and segmentation mask with QA scores are used to train the discriminator. To generate the QA scores, the 2-D montage images were reviewed manually and coded 0 (success), 1 (errors consistent with published performance), and 2 (gross failure). Then, the ResNet-18 network was trained with 1623 montage images in equal distribution of all three code labels and achieved an accuracy 94% for classification predictions with 404 montage images withheld for the test cohort. To assess the performance of using the QA supervision, the discriminator was used as a loss function in a multi-organ segmentation pipeline. The inclusion of QA-loss function boosted performance on the unlabeled test dataset from 714 patients to 951 patients over the baseline model. Additionally, the number of failures decreased from 606 (29.90%) to 402 (19.83%). The contributions of the proposed method are threefold: We show that (1) the QA scores can be used as a loss function to perform semi-supervised learning for unlabeled data, (2) the well trained discriminator is learnt by QA score rather than traditional true/false, and (3) the performance of multi-organ segmentation on unlabeled datasets can be fine-tuned with more robust and higher accuracy than the original baseline method.