ディープ ニューラル ネットワークは、医用画像に基づく病理分類など、さまざまな分野にうまく採用されています。ただし、強力なニューラル ネットワークをトレーニングするための大規模で高品質のデータは、資格のある専門家がラベル付けを行う必要があるため、医療分野ではまれです。研究者は最近、大規模な一般ドメイン データで事前にトレーニングされたモデルを利用することで、この問題に取り組み、ある程度の成功を収めました。具体的には、研究者は対照的な画像とテキストのエンコーダー (CLIP など) を使用し、胸部 X 線画像とペアのレポートを使用して微調整してゼロショット病理分類を実行し、分類をトレーニングするための病理注釈付き画像の必要性を完全に排除しました。モデル。ただし、既存の研究では、事前にトレーニングされたモデルを同じ対照的な学習目的で微調整しており、医療画像とレポートのペアの複数ラベルの性質を活用できませんでした。この論文では、ダウンストリームのゼロショット病理分類パフォーマンスを改善するために、文のサンプリングと正のペア損失緩和に基づく新しい微調整戦略を提案します。これは、事前にトレーニングされた対照的な画像テキストエンコーダーに適用できます。私たちの方法は一貫して、4 つの異なる胸部 X 線データセットと 3 つの異なる事前トレーニング済みモデルで劇的に改善されたゼロ ショット病理分類パフォーマンスを示しました (平均 AUROC 5.77% の増加)。特に、CheXpert データセットからの 5 つの著名な疾患のゼロショット分類において、私たちの方法を使用した CLIP の微調整は、ボード認定の放射線科医に匹敵するか、わずかに優れていることを示しました (F1 スコアで 0.619 対 0.625、MCC で 0.530 対 0.544)。
Deep neural networks have been successfully adopted to diverse domains including pathology classification based on medical images. However, large-scale and high-quality data to train powerful neural networks are rare in the medical domain as the labeling must be done by qualified experts. Researchers recently tackled this problem with some success by taking advantage of models pre-trained on large-scale general domain data. Specifically, researchers took contrastive image-text encoders (e.g., CLIP) and fine-tuned it with chest X-ray images and paired reports to perform zero-shot pathology classification, thus completely removing the need for pathology-annotated images to train a classification model. Existing studies, however, fine-tuned the pre-trained model with the same contrastive learning objective, and failed to exploit the multi-labeled nature of medical image-report pairs. In this paper, we propose a new fine-tuning strategy based on sentence sampling and positive pair loss relaxation for improving the downstream zero-shot pathology classification performance, which can be applied to any pre-trained contrastive image-text encoders. Our method consistently showed dramatically improved zero-shot pathology classification performance on four different chest X-ray datasets and 3 different pre-trained models (5.77% average AUROC increase). In particular, fine-tuning CLIP with our method showed much comparable or marginally outperformed to board-certified radiologists (0.619 vs 0.625 in F1 score and 0.530 vs 0.544 in MCC) in zero-shot classification of five prominent diseases from the CheXpert dataset.