arXiv reaDer
Machine Learning with Multi-Site Imaging Data: An Empirical Study on the Impact of Scanner Effects
  これは、マルチサイトニューロイメージングデータで機械学習を使用する場合のスキャナー効果の影響を調査する実証研究です。 2つの異なる研究、Cam-CANおよびUK Biobankから取得した構造T1強調脳MRIを利用します。調査の目的のために、592人の年齢および性別が一致した個人からの脳スキャン、各元の研究からの296人の被験者からなるデータセットを構築します。この結果は、最先端のニューロイメージングパイプラインで慎重に前処理した後でも、分類器が非常に高い精度でデータの起源を簡単に区別できることを示しています。性別分類の適用例の分析では、データを調和させる現在のアプローチでは、スキャナー固有のバイアスを除去できず、過度に楽観的なパフォーマンス推定と不十分な一般化につながることが示唆されています。マルチサイトデータの調和化は未解決の課題であり、予測モデリングのための高度な機械学習法でこのようなデータを使用する場合は特に注意する必要があると結論付けています。
This is an empirical study to investigate the impact of scanner effects when using machine learning on multi-site neuroimaging data. We utilize structural T1-weighted brain MRI obtained from two different studies, Cam-CAN and UK Biobank. For the purpose of our investigation, we construct a dataset consisting of brain scans from 592 age- and sex-matched individuals, 296 subjects from each original study. Our results demonstrate that even after careful pre-processing with state-of-the-art neuroimaging pipelines a classifier can easily distinguish between the origin of the data with very high accuracy. Our analysis on the example application of sex classification suggests that current approaches to harmonize data are unable to remove scanner-specific bias leading to overly optimistic performance estimates and poor generalization. We conclude that multi-site data harmonization remains an open challenge and particular care needs to be taken when using such data with advanced machine learning methods for predictive modelling.
updated: Thu Oct 10 2019 14:24:42 GMT+0000 (UTC)
published: Thu Oct 10 2019 14:24:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト