医用画像処理のセグメンテーションタスクは本質的に曖昧です。ターゲット構造の境界は、画像の品質と生物学的要因のためにしばしば不明瞭です。そのため、ディープラーニングアルゴリズムから予測されるセグメンテーションは本質的にあいまいです。さらに、人間のアノテーターによって実行される「グラウンドトゥルース」セグメンテーションは、実際にはこれらの手動ラベルで開発された監視モデルの出力の不確実性をさらに高める弱いラベルです。現在まで、ほとんどのディープラーニングセグメンテーション研究では、不確実性の定量化なしに予測セグメンテーションを利用しています。対照的に、セグメンテーションの不確実性をさらに定量化したセグメンテーションのためのモンテカルロドロップアウトU-Netの使用を検討します。曖昧性の低いターゲット構造(肝臓)とより曖昧な構造(肝臓腫瘍)のセグメンテーションに対する不確実性の3つの指標(変動係数、平均ペアワイズダイス、および平均ボクセルワイズ不確実性)の有用性を評価します。さらに、これらの測定の有用性が異なるパッチサイズとコスト関数によってどのように変化するかを評価します。私たちの結果は、より大きなパッチとコスト関数としての重み付きカテゴリクロスエントロピーを使用してトレーニングされたモデルにより、より小さなパッチとソフトダイス損失と比較して、より意味のある不確実性測定値を抽出できることを示唆しています。 3つの不確実性測定値の中で、Mean Pairwise Diceはセグメンテーション品質と最も強い相関を示します。私たちの研究は、不確実性の尺度を使用して予測セグメンテーションの品質を評価する方法の概念実証として機能し、さらに人間によるレビューのために特定のモデルから低品質のセグメンテーションにフラグを立てる可能性があります。
Segmentation tasks in medical imaging are inherently ambiguous: the boundary of a target structure is oftentimes unclear due to image quality and biological factors. As such, predicted segmentations from deep learning algorithms are inherently ambiguous. Additionally, "ground truth" segmentations performed by human annotators are in fact weak labels that further increase the uncertainty of outputs of supervised models developed on these manual labels. To date, most deep learning segmentation studies utilize predicted segmentations without uncertainty quantification. In contrast, we explore the use of Monte Carlo dropout U-Nets for the segmentation with additional quantification of segmentation uncertainty. We assess the utility of three measures of uncertainty (Coefficient of Variation, Mean Pairwise Dice, and Mean Voxelwise Uncertainty) for the segmentation of a less ambiguous target structure (liver) and a more ambiguous one (liver tumors). Furthermore, we assess how the utility of these measures changes with different patch sizes and cost functions. Our results suggest that models trained using larger patches and the weighted categorical cross-entropy as cost function allow the extraction of more meaningful uncertainty measures compared to smaller patches and soft dice loss. Among the three uncertainty measures Mean Pairwise Dice shows the strongest correlation with segmentation quality. Our study serves as a proof-of-concept of how uncertainty measures can be used to assess the quality of a predicted segmentation, potentially serving to flag low quality segmentations from a given model for further human review.