ゼロショット学習の最近の進歩により、画像とテキストのペアのデータを構造化ラベルの代わりに使用できるようになり、専門家の注釈付きデータセットの必要性がなくなりました。 CLIP ベースの CheXzero などのモデルは、胸部 X 線読影の領域におけるこれらの進歩を利用しています。 CXR-BERT、BlueBERT、ClinicalBERT などのドメイン事前トレーニング済みモデルは、元のモデルの整合性を壊すという犠牲を払って BERT の重みを置き換えることにより、特定のドメイン知識を持つ CLIP のようなモデルのパフォーマンスを向上させる可能性を提供すると仮説を立てています。有病率の低い病状を検出するためのドメイン固有の事前トレーニングを使用して、ゼロショット分類モデルのパフォーマンスを評価します。元の CLIP-BERT の重みを置き換えると、一般的に見られる病状ではモデルのパフォーマンスが低下しますが、事前トレーニングされたテキスト タワーは有病率の低い疾患では非常に優れたパフォーマンスを発揮することを示します。これにより、パフォーマンスを最大化するために、さまざまにトレーニングされた言語モデルを組み合わせた将来のアンサンブル モデルが動機付けられます。
Recent advances in zero-shot learning have enabled the use of paired image-text data to replace structured labels, replacing the need for expert annotated datasets. Models such as CLIP-based CheXzero utilize these advancements in the domain of chest X-ray interpretation. We hypothesize that domain pre-trained models such as CXR-BERT, BlueBERT, and ClinicalBERT offer the potential to improve the performance of CLIP-like models with specific domain knowledge by replacing BERT weights at the cost of breaking the original model's alignment. We evaluate the performance of zero-shot classification models with domain-specific pre-training for detecting low-prevalence pathologies. Even though replacing the weights of the original CLIP-BERT degrades model performance on commonly found pathologies, we show that pre-trained text towers perform exceptionally better on low-prevalence diseases. This motivates future ensemble models with a combination of differently trained language models for maximal performance.