ディープラーニングモデルがより広く普及する一方で、目に見えないデータを処理し、あらゆるシナリオに対して一般化するそれらの機能はまだ挑戦されていません。医用画像処理では、画像を生成する機器とそのパラメーター化に基づいて、画像間の分布に高い不均一性があります。この不均一性は、ドメインシフトと呼ばれる機械学習の一般的な問題を引き起こします。これは、トレーニングデータの分布とモデルが採用されている場所の分布の違いを表しています。ドメインシフトが大きいと、モデルの汎化パフォーマンスが低下する傾向があります。この作業では、胸部X線写真の最大のデータセットの4つでドメインシフトの範囲を評価します。さまざまなデータセットを使用したトレーニングとテスト(たとえば、ChestX-ray14でのトレーニングとCheXpertでのテスト)がモデルのパフォーマンスに劇的に影響し、公開データセットでトレーニングされたディープラーニングモデルの信頼性に大きな疑問を投げかけることを示します。また、CheXpertおよびMIMIC-CXRでトレーニングされたモデルは、他のデータセットに一般化することも示しています。
While deep learning models become more widespread, their ability to handle unseen data and generalize for any scenario is yet to be challenged. In medical imaging, there is a high heterogeneity of distributions among images based on the equipment that generates them and their parametrization. This heterogeneity triggers a common issue in machine learning called domain shift, which represents the difference between the training data distribution and the distribution of where a model is employed. A high domain shift tends to implicate in a poor generalization performance from the models. In this work, we evaluate the extent of domain shift on four of the largest datasets of chest radiographs. We show how training and testing with different datasets (e.g., training in ChestX-ray14 and testing in CheXpert) drastically affects model performance, posing a big question over the reliability of deep learning models trained on public datasets. We also show that models trained on CheXpert and MIMIC-CXR generalize better to other datasets.