目的: 比較的小規模で混合されたデータセットを使用して、胸部 X 線を Covid-19、正常または肺炎として分類するように訓練されたディープ ニューラル ネットワーク (DNN) の一般化機能を評価しました。方法: 肺のセグメンテーションと分類を実行する DNN を提案し、セグメンテーション モジュール (U-Net)、元の中間モジュール、および分類モジュール (DenseNet201) を積み重ねます。一般化を評価するために、(異なる地域からの) 外部データセットを使用して DNN をテストし、ベイジアン推論を使用してパフォーマンス メトリックの確率分布を推定しました。結果: 当社の DNN は、外部テスト データセットで 0.917 AUC を達成し、セグメンテーションなしの DenseNet では 0.906 を達成しました。ベイジアン推論は、76.1% および [0.695, 0.826] 95% HDI (最高密度間隔、メトリックの確率質量の 95% を集中させる) の平均精度を示し、セグメンテーションなしでは 71.7% および [0.646, 0.786] でした。結論: LRP スコアと Brixia スコアを使用する新しい DNN 評価手法を使用して、放射線科医が Covid-19 の強い症状を発見した領域が、積み重ねられた DNN 分類にとって最も重要であることを発見しました。外部検証は内部検証よりも精度が低く、セグメンテーションによってプラスの影響を受ける一般化の難しさを示しています。最後に、外部データセットでのパフォーマンスと LRP を使用した分析は、DNN を小規模な混合データセットでトレーニングしても、Covid-19 を正常に検出できることを示唆しています。
Purpose: we evaluated the generalization capability of deep neural networks (DNNs), trained to classify chest X-rays as Covid-19, normal or pneumonia, using a relatively small and mixed dataset. Methods: we proposed a DNN to perform lung segmentation and classification, stacking a segmentation module (U-Net), an original intermediate module and a classification module (DenseNet201). To evaluate generalization, we tested the DNN with an external dataset (from distinct localities) and used Bayesian inference to estimate probability distributions of performance metrics. Results: our DNN achieved 0.917 AUC on the external test dataset, and a DenseNet without segmentation, 0.906. Bayesian inference indicated mean accuracy of 76.1% and [0.695, 0.826] 95% HDI (highest density interval, which concentrates 95% of the metric's probability mass) with segmentation and, without segmentation, 71.7% and [0.646, 0.786]. Conclusion: employing a novel DNN evaluation technique, which uses LRP and Brixia scores, we discovered that areas where radiologists found strong Covid-19 symptoms are the most important for the stacked DNN classification. External validation showed smaller accuracies than internal, indicating difficulty in generalization, which is positively affected by segmentation. Finally, the performance in the external dataset and the analysis with LRP suggest that DNNs can be trained in small and mixed datasets and still successfully detect Covid-19.