大規模なデータで事前トレーニングされたマルチモーダル基盤モデルは、自然言語理解と視覚認識に成功していますが、医療タスクのきめの細かい性質とドメイン知識に対する高い需要のために、医療ドメインでの使用は依然として制限されています。 .この課題に対処するために、Knowledge-enhanced Auto Diagnosis (KAD) と呼ばれる新しいアプローチを提案します。これは、既存の医療分野の知識を活用して、ペアの胸部 X 線と放射線レポートを使用して視覚言語の事前トレーニングをガイドします。 4 つの外部 X 線データセットで KAD を評価し、そのゼロ ショット性能が完全に教師ありのモデルの性能に匹敵するだけでなく、3 つの (5 つのうち) 病状に対する 3 人の専門放射線科医の平均よりも優れていることを実証します。意義。さらに、少数ショットの注釈が利用可能な場合、KAD は微調整設定で既存のすべてのアプローチよりも優れており、さまざまな臨床シナリオでのアプリケーションの可能性を示しています。
While multi-modal foundation models pre-trained on large-scale data have been successful in natural language understanding and vision recognition, their use in medical domains is still limited due to the fine-grained nature of medical tasks and the high demand for domain knowledge. To address this challenge, we propose a novel approach called Knowledge-enhanced Auto Diagnosis (KAD) which leverages existing medical domain knowledge to guide vision-language pre-training using paired chest X-rays and radiology reports. We evaluate KAD on four external X-ray datasets and demonstrate that its zero-shot performance is not only comparable to that of fully-supervised models, but also superior to the average of three expert radiologists for three (out of five) pathologies with statistical significance. Moreover, when few-shot annotation is available, KAD outperforms all existing approaches in fine-tuning settings, demonstrating its potential for application in different clinical scenarios.