全体的な精度が最近改善されたにもかかわらず、ディープラーニングシステムは依然として低レベルの堅牢性を示しています。可能性のある障害を検出することは、各データポイントが個々の患者に対応するこれらのシステムの臨床的統合を成功させるために重要です。不確実性の尺度は、システムの信頼性の尺度を提供するため、故障検出を改善する有望な方向です。ディープラーニング用に多くの不確実性推定方法が提案されていますが、その利点と医療画像セグメンテーションの現在の課題についてはほとんど知られていません。したがって、一般的なボクセルごとの不確実性の評価を、その信頼性と2つの医療画像セグメンテーションデータセットの制限に関して評価した結果を報告します。結果は、現在の不確実性の方法が同様に機能し、データセットレベルで十分に較正されているが、被験者レベルで誤って較正される傾向があることを示しています。したがって、不確実性推定の信頼性が損なわれ、被験者ごとの不確実性推定の開発の重要性が強調されます。さらに、ベンチマークされたメソッドの中で、補助ネットワークは、以前にトレーニングされたセグメンテーションモデルに適用できるため、一般的な不確実性メソッドの有効な代替手段であることがわかりました。
Despite the recent improvements in overall accuracy, deep learning systems still exhibit low levels of robustness. Detecting possible failures is critical for a successful clinical integration of these systems, where each data point corresponds to an individual patient. Uncertainty measures are a promising direction to improve failure detection since they provide a measure of a system's confidence. Although many uncertainty estimation methods have been proposed for deep learning, little is known on their benefits and current challenges for medical image segmentation. Therefore, we report results of evaluating common voxel-wise uncertainty measures with respect to their reliability, and limitations on two medical image segmentation datasets. Results show that current uncertainty methods perform similarly and although they are well-calibrated at the dataset level, they tend to be miscalibrated at subject-level. Therefore, the reliability of uncertainty estimates is compromised, highlighting the importance of developing subject-wise uncertainty estimations. Additionally, among the benchmarked methods, we found auxiliary networks to be a valid alternative to common uncertainty methods since they can be applied to any previously trained segmentation model.