arXiv reaDer
RoentGen: 胸部 X 線生成のための視覚言語基盤モデル
RoentGen: Vision-Language Foundation Model for Chest X-ray Generation
大規模な自然画像とテキストのペア データセットでトレーニングされたマルチモーダル モデルは、高品質の画像を生成する驚くべき能力を発揮しました。医用画像データは自然画像とは根本的に異なり、医療データの関連する詳細を簡潔に捉えるために使用される言語は、異なる、狭いが意味的に豊富なドメイン固有の語彙を使用します。当然のことながら、自然な画像とテキストのペアでトレーニングされたマルチモーダル モデルは、医療分野にうまく一般化されない傾向があります。組成の多様性を提供しながら、医療概念を忠実に表現する生成画像モデルを開発することで、高品質で注釈付きの医療画像データセットの既存の不足を軽減できます。この作業では、公開されている胸部 X 線 (CXR) とそれに対応する放射線 (テキスト) レポートのコーパスに事前トレーニング済みの潜在拡散モデルを適用することにより、自然医療の大きな分布シフトを克服するための戦略を開発します。テキストプロンプトを条件とした、忠実度の高い多様な合成CXRを生成するモデルの能力を調査します。画質メトリクスを使用してモデルの出力を定量的に評価し、ドメインの専門家による画質とテキスト画像の配置を評価します。得られたモデル (RoentGen) が視覚的に説得力のある多様な合成 CXR 画像を作成できること、および放射線学固有の言語を含む自由形式のテキスト プロンプトを使用して出力を新しい範囲で制御できることの証拠を提示します。固定トレーニング セットでこのモデルを微調整し、それをデータ拡張方法として使用すると、合成画像と実際の画像で共同でトレーニングされた分類子の 5% の改善と、より大規模で純粋な合成トレーニングでトレーニングした場合の 3% の改善が測定されます。設定。最後に、この微調整により、テキスト エンコーダーのドメイン内の知識が抽出され、気胸などの特定の疾患の表現能力が 25% 向上することがわかります。
Multimodal models trained on large natural image-text pair datasets have exhibited astounding abilities in generating high-quality images. Medical imaging data is fundamentally different to natural images, and the language used to succinctly capture relevant details in medical data uses a different, narrow but semantically rich, domain-specific vocabulary. Not surprisingly, multi-modal models trained on natural image-text pairs do not tend to generalize well to the medical domain. Developing generative imaging models faithfully representing medical concepts while providing compositional diversity could mitigate the existing paucity of high-quality, annotated medical imaging datasets. In this work, we develop a strategy to overcome the large natural-medical distributional shift by adapting a pre-trained latent diffusion model on a corpus of publicly available chest x-rays (CXR) and their corresponding radiology (text) reports. We investigate the model's ability to generate high-fidelity, diverse synthetic CXR conditioned on text prompts. We assess the model outputs quantitatively using image quality metrics, and evaluate image quality and text-image alignment by human domain experts. We present evidence that the resulting model (RoentGen) is able to create visually convincing, diverse synthetic CXR images, and that the output can be controlled to a new extent by using free-form text prompts including radiology-specific language. Fine-tuning this model on a fixed training set and using it as a data augmentation method, we measure a 5% improvement of a classifier trained jointly on synthetic and real images, and a 3% improvement when trained on a larger but purely synthetic training set. Finally, we observe that this fine-tuning distills in-domain knowledge in the text-encoder and can improve its representation capabilities of certain diseases like pneumothorax by 25%.
updated: Wed Nov 23 2022 06:58:09 GMT+0000 (UTC)
published: Wed Nov 23 2022 06:58:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト