Multi-loss ensemble deep learning for chest X-ray classification
医用画像は一般的に複数の異常を示します。それらを予測するには、データセットサイズ、データソース、分布、ディープニューラルネットワークのトレーニングに使用される損失関数などの要因の組み合わせによってトレーニングと望ましい信頼性の高いパフォーマンスが影響を受ける可能性があるマルチクラス分類器が必要です。現在、クロスエントロピー損失は、深層学習分類器をトレーニングするための事実上の損失関数のままです。ただし、この損失関数は、すべてのクラスからの平等な学習を主張し、多数派クラスへのバイアスにつながります。この作業では、マルチクラス分類に適したさまざまな最先端の損失関数をベンチマークし、モデルのパフォーマンスを批判的に分析し、改善された損失関数を提案します。異常のない(正常な)画像と、細菌性およびウイルス性肺炎と一致する症状を示す画像を含む小児胸部X線(CXR)データセットを選択します。分類パフォーマンスを向上させるために、予測レベルとモデルレベルのアンサンブルをそれぞれ構築します。私たちの結果は、個々のモデルおよび最先端の文献と比較して、上位3および上位5のモデルレベルのアンサンブルの予測の加重平均が、有意に優れた分類パフォーマンス(p <0.05)を提供したことを示しています。 MCC(0.9068、95%信頼区間(0.8839、0.9297))メトリックの。最後に、ローカリゼーション研究を実行してモデルの動作を解釈し、個々のモデルとアンサンブルが意味のある機能を学習し、疾患の症状を強調したことを視覚化して確認しました。
Medical images commonly exhibit multiple abnormalities. Predicting them requires multi-class classifiers whose training and desired reliable performance can be affected by a combination of factors, such as, dataset size, data source, distribution, and the loss function used to train the deep neural networks. Currently, the cross-entropy loss remains the de-facto loss function for training deep learning classifiers. This loss function, however, asserts equal learning from all classes, leading to a bias toward the majority class. In this work, we benchmark various state-of-the-art loss functions that are suitable for multi-class classification, critically analyze model performance, and propose improved loss functions. We select a pediatric chest X-ray (CXR) dataset that includes images with no abnormality (normal), and those exhibiting manifestations consistent with bacterial and viral pneumonia. We construct prediction-level and model-level ensembles, respectively, to improve classification performance. Our results show that compared to the individual models and the state-of-the-art literature, the weighted averaging of the predictions for top-3 and top-5 model-level ensembles delivered significantly superior classification performance (p < 0.05) in terms of MCC (0.9068, 95% confidence interval (0.8839, 0.9297)) metric. Finally, we performed localization studies to interpret model behaviors to visualize and confirm that the individual models and ensembles learned meaningful features and highlighted disease manifestations.
updated: Tue Oct 26 2021 10:17:41 GMT+0000 (UTC)
published: Wed Sep 29 2021 14:14:04 GMT+0000 (UTC)
