胸部 X 線 (CXR) は胸部疾患の診断によく使用されますが、病理間の複雑な関係により、この方法で正確な自動診断を達成するという課題は依然として残っています。近年、この問題に取り組むためにさまざまな深層学習ベースのアプローチが提案されていますが、画像解像度やノイズの問題などの混乱要因がモデルのパフォーマンスに悪影響を与えることがよくあります。この論文では、胸部 X 線分類タスクに焦点を当て、誤った関連を排除し、正確な因果表現を取得するために、解釈可能な操作変数 (IV) 学習フレームワークを提案しました。具体的には、まずタスクの構造的因果モデル (SCM) を構築し、交絡因子と IV の暫定表現を学習します。次に、補助情報として電子医療記録 (EHR) を活用し、上記の機能をトランスフォーマー ベースのセマンティクスと融合します。融合モジュールであるため、IV には医療セマンティクスが含まれます。一方、IV の信頼性は、関連する因果変数間の相互情報量の制約によってさらに保証されます。最後に、MIMIC-CXR、NIH ChestX-ray 14、および CheXpert データセットを使用して私たちのアプローチのパフォーマンスが実証され、競争力のある結果が得られました。
The chest X-ray (CXR) is commonly employed to diagnose thoracic illnesses, but the challenge of achieving accurate automatic diagnosis through this method persists due to the complex relationship between pathology. In recent years, various deep learning-based approaches have been suggested to tackle this problem but confounding factors such as image resolution or noise problems often damage model performance. In this paper, we focus on the chest X-ray classification task and proposed an interpretable instrumental variable (IV) learning framework, to eliminate the spurious association and obtain accurate causal representation. Specifically, we first construct a structural causal model (SCM) for our task and learn the confounders and the preliminary representations of IV, we then leverage electronic health record (EHR) as auxiliary information and we fuse the above feature with our transformer-based semantic fusion module, so the IV has the medical semantic. Meanwhile, the reliability of IV is further guaranteed via the constraints of mutual information between related causal variables. Finally, our approach's performance is demonstrated using the MIMIC-CXR, NIH ChestX-ray 14, and CheXpert datasets, and we achieve competitive results.