arXiv reaDer
機械学習モデルの一般化可能性: 方法論上の 3 つの落とし穴の定量的評価
Generalizability of Machine Learning Models: Quantitative Evaluation of Three Methodological Pitfalls
目的: 機械学習モデルの可能性にもかかわらず、一般化の欠如により、臨床現場での広範な採用が妨げられています。 (1) 独立性の仮定の違反、(2) 比較のための不適切なパフォーマンス インジケーターまたはベースラインを使用したモデル評価、および (3) バッチ効果です。材料と方法: いくつかのレトロスペクティブ データセットを使用して、モデルの一般化可能性に対するこれらの落とし穴の影響を定量的に示すために、落とし穴の有無にかかわらず機械学習モデルを実装します。結果: 独立性仮定の違反、より具体的には、データをトレーニング、検証、およびテスト セットにそれぞれ分割する前に、オーバーサンプリング、特徴選択、およびデータ拡張を適用すると、F1 スコアが 71.2% という誤解を招く表面的なゲインにつながり、局所再発を予測し、頭頸部がんの 3 年全生存率の予測で 5.0%、肺がんの組織病理学的パターンの識別で 46.0%。さらに、被験者のデータ ポイントをトレーニング セット、検証セット、テスト セットにランダムに分散すると、F1 スコアが表面的に 21.8% 増加しました。また、比較のためのパフォーマンス指標とベースラインの選択の重要性を示しました。バッチ効果が存在する場合、肺炎検出用に構築されたモデルは 98.7% の F1 スコアをもたらしました。ただし、同じモデルを正常な患者の新しいデータセットに適用した場合、サンプルの 3.86% しか正しく分類されませんでした。結論: これらの方法論的な落とし穴は、内部モデル評価を使用して把握することはできず、そのようなモデルによって行われた不正確な予測は、間違った結論や解釈につながる可能性があります。したがって、一般化可能なモデルを開発するには、これらの落とし穴を理解し、回避することが必要です。
Purpose: Despite the potential of machine learning models, the lack of generalizability has hindered their widespread adoption in clinical practice. We investigate three methodological pitfalls: (1) violation of independence assumption, (2) model evaluation with an inappropriate performance indicator or baseline for comparison, and (3) batch effect. Materials and Methods: Using several retrospective datasets, we implement machine learning models with and without the pitfalls to quantitatively illustrate these pitfalls' effect on model generalizability. Results: Violation of independence assumption, more specifically, applying oversampling, feature selection, and data augmentation before splitting data into train, validation, and test sets, respectively, led to misleading and superficial gains in F1 scores of 71.2% in predicting local recurrence and 5.0% in predicting 3-year overall survival in head and neck cancer as well as 46.0% in distinguishing histopathological patterns in lung cancer. Further, randomly distributing data points for a subject across training, validation, and test sets led to a 21.8% superficial increase in F1 score. Also, we showed the importance of the choice of performance measures and baseline for comparison. In the presence of batch effect, a model built for pneumonia detection led to F1 score of 98.7%. However, when the same model was applied to a new dataset of normal patients, it only correctly classified 3.86% of the samples. Conclusions: These methodological pitfalls cannot be captured using internal model evaluation, and the inaccurate predictions made by such models may lead to wrong conclusions and interpretations. Therefore, understanding and avoiding these pitfalls is necessary for developing generalizable models.
updated: Wed Sep 07 2022 21:39:24 GMT+0000 (UTC)
published: Tue Feb 01 2022 05:07:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト