Optimizing the Dice Score and Jaccard Index for Medical Image Segmentation: Theory & Practice
 サイコロスコアとジャカードインデックスは、医療画像のセグメンテーションタスクの評価に一般的に使用される指標です。画像セグメンテーションタスク用にトレーニングされた畳み込みニューラルネットワークは、通常(重み付き)クロスエントロピー用に最適化されます。これにより、学習最適化目標(損失)と最終目標メトリック間に不利な矛盾が生じます。最近のコンピュータービジョンの研究では、この不一致を緩和し、緩和(ソフトダイス、ソフトジャカード)またはサブモジュラー最適化(Lovász-softmax)により、所望のメトリックを直接最適化するソフトサロゲートが提案されています。この研究の目的は2つあります。最初に、リスク最小化フレームワークの理論的な違いを調査し、サイコロまたはジャカードをサロゲートするために理論的に最適化された重みを持つ重み付きクロスエントロピー損失の存在を疑問視します。次に、前述の損失関数w.r.tの動作を経験的に調査します。 5つの医療セグメンテーションタスクに関するダイススコアとJaccardインデックスによる評価。相対近似境界の適用により、すべてのサロゲートが乗法因子まで同等であり、DiceまたはJaccardメジャーを近似するためのクロスエントロピーの最適な重みが存在しないことを示します。これらの調査結果を実証的に検証し、クロスエントロピーに基づく損失ではなく、ターゲットメトリックサロゲートのいずれかを選択することが重要であるが、サロゲートの選択は幅広い医療セグメンテーションで統計的な違いをもたらさないことを示しますタスク。
The Dice score and Jaccard index are commonly used metrics for the evaluation of segmentation tasks in medical imaging. Convolutional neural networks trained for image segmentation tasks are usually optimized for (weighted) cross-entropy. This introduces an adverse discrepancy between the learning optimization objective (the loss) and the end target metric. Recent works in computer vision have proposed soft surrogates to alleviate this discrepancy and directly optimize the desired metric, either through relaxations (soft-Dice, soft-Jaccard) or submodular optimization (Lovász-softmax). The aim of this study is two-fold. First, we investigate the theoretical differences in a risk minimization framework and question the existence of a weighted cross-entropy loss with weights theoretically optimized to surrogate Dice or Jaccard. Second, we empirically investigate the behavior of the aforementioned loss functions w.r.t. evaluation with Dice score and Jaccard index on five medical segmentation tasks. Through the application of relative approximation bounds, we show that all surrogates are equivalent up to a multiplicative factor, and that no optimal weighting of cross-entropy exists to approximate Dice or Jaccard measures. We validate these findings empirically and show that, while it is important to opt for one of the target metric surrogates rather than a cross-entropy-based loss, the choice of the surrogate does not make a statistical difference on a wide range of medical segmentation tasks.
