人工知能を臨床ワークフローに統合するには、信頼性が高く堅牢なモデルが必要です。堅牢性の主な機能の中には、再現性があります。モデルの再現性を評価せずに分類のパフォーマンスに多くの注意が払われ、実際には使用できないことが判明したモデルの開発につながります。この作業では、同じ訪問中に取得された同じ患者からの画像で4つのモデルタイプの再現性を評価します。子宮頸がんのスクリーニング、乳房密度推定、未熟児網膜症の3つの医療画像分析タスクで、バイナリ、マルチクラス、順序、および回帰モデルのパフォーマンスを研究します。さらに、テスト時にモンテカルロドロップアウト予測をサンプリングすることによる分類パフォーマンスと再現性への影響を評価します。モンテカルロ予測を活用すると、バイナリモデル、マルチクラスモデル、および序数モデルのすべてのタスクの再現性が大幅に向上し、合意の95%の制限が平均17%ポイント減少しました。
The integration of artificial intelligence into clinical workflows requires reliable and robust models. Among the main features of robustness is repeatability. Much attention is given to classification performance without assessing the model repeatability, leading to the development of models that turn out to be unusable in practice. In this work, we evaluate the repeatability of four model types on images from the same patient that were acquired during the same visit. We study the performance of binary, multi-class, ordinal, and regression models on three medical image analysis tasks: cervical cancer screening, breast density estimation, and retinopathy of prematurity classification. Moreover, we assess the impact of sampling Monte Carlo dropout predictions at test time on classification performance and repeatability. Leveraging Monte Carlo predictions significantly increased repeatability for all tasks on the binary, multi-class, and ordinal models leading to an average reduction of the 95% limits of agreement by 17% points.