arXiv reaDer
深層学習モデルのキャリブレーションは、クラスの不均衡な医用画像分類のパフォーマンスを向上させますか?
Does deep learning model calibration improve performance in class-imbalanced medical image classification?
医用画像分類タスクでは、正常なサンプルの数が異常なサンプルの数をはるかに超えていることがよくあります。このようなクラスの不均衡な状況では、ディープニューラルネットワークの信頼性の高いトレーニングが引き続き大きな課題です。このような状況では、予測されるクラスの確率が多数派クラスに偏る可能性があります。これらの影響の一部を軽減するために、キャリブレーションが提案されています。ただし、モデルのキャリブレーションがパフォーマンスの向上に役立つかどうかを説明する分析は不十分です。この研究では、さまざまな深層学習分類器バックボーンを使用して、モデルキャリブレーションが2つの医用画像モダリティ(胸部X線と眼底画像)のパフォーマンスに及ぼす影響の体系的な分析を実行します。このために、次のバリエーションを調査します。(i)トレーニングに使用されるデータセットの不均衡の程度。 (ii)校正方法; (iii)2つの分類しきい値、つまり、デフォルトの決定しきい値0.5と、適合率-再現率曲線からの最適しきい値。私たちの結果は、デフォルトの動作しきい値である0.5では、キャリブレーションによって達成されるパフォーマンスが、キャリブレーションされていない確率を使用するよりも大幅に優れていることを示しています(p <0.05)。ただし、PRに基づくしきい値では、これらのゲインに大きな違いはありません(p> 0.05)。この発見は、画像モダリティとさまざまな程度の不均衡の両方に当てはまります。
In medical image classification tasks, it is common to find that the number of normal samples far exceeds the number of abnormal samples. In such class-imbalanced situations, reliable training of deep neural networks continues to be a major challenge. Under these circumstances, the predicted class probabilities may be biased toward the majority class. Calibration has been suggested to alleviate some of these effects. However, there is insufficient analysis explaining when and whether calibrating a model would be beneficial in improving performance. In this study, we perform a systematic analysis of the effect of model calibration on its performance on two medical image modalities, namely, chest X-rays and fundus images, using various deep learning classifier backbones. For this, we study the following variations: (i) the degree of imbalances in the dataset used for training; (ii) calibration methods; and (iii) two classification thresholds, namely, default decision threshold of 0.5, and optimal threshold from precision-recall curves. Our results indicate that at the default operating threshold of 0.5, the performance achieved through calibration is significantly superior (p < 0.05) to using uncalibrated probabilities. However, at the PR-guided threshold, these gains are not significantly different (p > 0.05). This finding holds for both image modalities and at varying degrees of imbalance.
updated: Mon Oct 11 2021 12:37:06 GMT+0000 (UTC)
published: Wed Sep 29 2021 12:00:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト