実質的な情報を含む医療レポートは、コンピュータ ビジョン タスクの医療画像を自然に補完することができ、視覚と言語の間のモダリティのギャップは視覚言語マッチング (VLM) によって解決できます。しかし、現在の視覚言語モデルはモデル内の関係を歪めており、セグメンテーションタスクには不十分な即時学習のクラス情報を主に含んでいます。この論文では、単語レベルの VLGM モジュールと文レベルの VLGM モジュールで構成される、テキスト ガイド付き医用画像セグメンテーションのためのバイレベルのクラス重大度認識視覚言語グラフ マッチング (Bi-VLGM) を紹介します。ビジュアルとテキストの特徴間のクラス重大度を意識した関係。単語レベルの VLGM では、VLM 中の歪んだモーダル内関係を軽減するために、VLM をグラフ マッチング問題として再定式化し、視覚とテキストの特徴間の高次の関係を利用する視覚言語グラフ マッチング (VLGM) を導入します。次に、各クラス領域のローカル フィーチャとクラス認識プロンプトの間で VLGM を実行して、それらのギャップを埋めます。文レベルの VLGM では、セグメンテーション タスクに疾患の重症度情報を提供するために、網膜病変の重症度レベルを定量化するための重症度を意識したプロンプトを導入し、全体的な特徴と重症度を意識したプロンプトの間で VLGM を実行します。ローカル (グローバル) 機能とクラス (重大度) 機能の間の関係を利用することで、セグメンテーション モデルはクラス認識および重大度認識の情報を選択的に学習して、パフォーマンスを向上させることができます。広範な実験により、私たちの方法の有効性と既存の方法に対する優位性が証明されています。ソースコードは公開予定です。
Medical reports with substantial information can be naturally complementary to medical images for computer vision tasks, and the modality gap between vision and language can be solved by vision-language matching (VLM). However, current vision-language models distort the intra-model relation and mainly include class information in prompt learning that is insufficient for segmentation task. In this paper, we introduce a Bi-level class-severity-aware Vision-Language Graph Matching (Bi-VLGM) for text guided medical image segmentation, composed of a word-level VLGM module and a sentence-level VLGM module, to exploit the class-severity-aware relation among visual-textual features. In word-level VLGM, to mitigate the distorted intra-modal relation during VLM, we reformulate VLM as graph matching problem and introduce a vision-language graph matching (VLGM) to exploit the high-order relation among visual-textual features. Then, we perform VLGM between the local features for each class region and class-aware prompts to bridge their gap. In sentence-level VLGM, to provide disease severity information for segmentation task, we introduce a severity-aware prompting to quantify the severity level of retinal lesion, and perform VLGM between the global features and the severity-aware prompts. By exploiting the relation between the local (global) and class (severity) features, the segmentation model can selectively learn the class-aware and severity-aware information to promote performance. Extensive experiments prove the effectiveness of our method and its superiority to existing methods. Source code is to be released.