arXiv reaDer
注意ベースの顕著性マップは、気胸分類の解釈可能性を改善します
Attention-based Saliency Maps Improve Interpretability of Pneumothorax Classification
目的: 胸部レントゲン写真 (CXR) による視覚変換器 (ViT) の分類性能と、気胸分類の例を使用した注意に基づく顕著性の解釈可能性を調査する。材料と方法: このレトロスペクティブ研究では、ViT は 4 つの公開データセット (CheXpert、胸部 X 線 14、MIMIC CXR、および VinBigData) を使用して肺疾患分類用に微調整されました。顕著性マップは、Transformer マルチモーダル説明可能性と勾配加重クラス活性化マッピング (GradCAM) を使用して生成されました。分類性能は、胸部 X 線 14、VinBigData、および SIIM-ACR データ セットで、受信者動作特性曲線分析 (AUC) の下の領域を使用して評価され、畳み込みニューラル ネットワーク (CNN) と比較されました。説明可能性の方法は、正/負の摂動、感度-n、有効熱比、アーキテクチャ内再現性、およびアーキテクチャ間再現性で評価されました。ユーザー調査では、3 人の放射線科医が、気胸の顕著性マップの有無にかかわらず 160 の CXR を分類し、その有用性を評価しました。結果: ViT の CXR 分類 AUC は、胸部 X 線 14 で 0.95 (95% CI: 0.943、0.950) 対 0.83 (95%、CI 0.826、0.842)、0.84 (95%) VinBigData では CI: 0.769、0.912) 対 0.83 (95% CI: 0.760, 0.895)、SIIM ACR では 0.85 (95% CI: 0.847, 0.861) 対 0.87 (95% CI: 0.868, 0.882)。どちらの顕著性マップ手法も、モデルの気胸チューブに強い偏りがあることを明らかにしました。放射線科医は、注意力ベースの顕著性マップの 47% が有用であり、GradCAM の 39% が有用であることを発見しました。注意ベースの方法は、すべての指標で GradCAM よりも優れていました。結論: ViT は CXR 分類で CNN と同様に機能し、その注意ベースの顕著性マップは放射線科医にとってより有用であり、GradCAM よりも優れていました。
Purpose: To investigate chest radiograph (CXR) classification performance of vision transformers (ViT) and interpretability of attention-based saliency using the example of pneumothorax classification. Materials and Methods: In this retrospective study, ViTs were fine-tuned for lung disease classification using four public data sets: CheXpert, Chest X-Ray 14, MIMIC CXR, and VinBigData. Saliency maps were generated using transformer multimodal explainability and gradient-weighted class activation mapping (GradCAM). Classification performance was evaluated on the Chest X-Ray 14, VinBigData, and SIIM-ACR data sets using the area under the receiver operating characteristic curve analysis (AUC) and compared with convolutional neural networks (CNNs). The explainability methods were evaluated with positive/negative perturbation, sensitivity-n, effective heat ratio, intra-architecture repeatability and interarchitecture reproducibility. In the user study, three radiologists classified 160 CXRs with/without saliency maps for pneumothorax and rated their usefulness. Results: ViTs had comparable CXR classification AUCs compared with state-of-the-art CNNs 0.95 (95% CI: 0.943, 0.950) versus 0.83 (95%, CI 0.826, 0.842) on Chest X-Ray 14, 0.84 (95% CI: 0.769, 0.912) versus 0.83 (95% CI: 0.760, 0.895) on VinBigData, and 0.85 (95% CI: 0.847, 0.861) versus 0.87 (95% CI: 0.868, 0.882) on SIIM ACR. Both saliency map methods unveiled a strong bias toward pneumothorax tubes in the models. Radiologists found 47% of the attention-based saliency maps useful and 39% of GradCAM. The attention-based methods outperformed GradCAM on all metrics. Conclusion: ViTs performed similarly to CNNs in CXR classification, and their attention-based saliency maps were more useful to radiologists and outperformed GradCAM.
updated: Fri Mar 03 2023 12:05:41 GMT+0000 (UTC)
published: Fri Mar 03 2023 12:05:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト