arXiv reaDer
統合、調整、改良: 放射線レポート生成のためのマルチレベル セマンティック アラインメント
Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation
放射線レポートの自動生成は、放射線科医の作業負荷を軽減するという実用的な価値があるため、大きな研究の関心を集めています。ただし、画像 (胸部 X 線など) とそれに関連するレポートの間のグローバルな対応付けと、画像パッチとキーワードの間のローカルな対応付けを同時に確立することは依然として困難です。この目的のために、マルチレベルのクロスモーダル アラインメントを学習し、3 つの新しいモジュールを導入する Unify, Align and then Refine (UAR) アプローチを提案します: Latent Space Unifier (LSU)、Cross-modal Representation Aligner (CRA)、Text- to-Image Refiner (TIR)。具体的には、LSU はマルチモーダル データを個別のトークンに統合し、共有ネットワークを使用してモダリティ間の共通知識を柔軟に学習できるようにします。モダリティに依存しない CRA は、最初に一連の正規直交基底とデュアル ゲート メカニズムを介して識別機能を学習し、次に、トリプレット コントラスト損失の下で視覚的およびテキスト的表現をグローバルに整列させます。 TIR は、学習可能なマスクを使用してテキストから画像への注意を調整することにより、トークン レベルのローカル アラインメントを強化します。さらに、UAR がさまざまなレベルでクロスモーダル アラインメントを徐々に把握できるようにするための 2 段階のトレーニング手順を設計します。これは、放射線科医のワークフローを模倣します。 IU-XrayおよびMIMIC-CXRベンチマークデータセットに関する広範な実験と分析により、さまざまな最先端の方法に対するUARの優位性が実証されています。
Automatic radiology report generation has attracted enormous research interest due to its practical value in reducing the workload of radiologists. However, simultaneously establishing global correspondences between the image (e.g., Chest X-ray) and its related report and local alignments between image patches and keywords remains challenging. To this end, we propose an Unify, Align and then Refine (UAR) approach to learn multi-level cross-modal alignments and introduce three novel modules: Latent Space Unifier (LSU), Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR). Specifically, LSU unifies multimodal data into discrete tokens, making it flexible to learn common knowledge among modalities with a shared network. The modality-agnostic CRA learns discriminative features via a set of orthonormal basis and a dual-gate mechanism first and then globally aligns visual and textual representations under a triplet contrastive loss. TIR boosts token-level local alignment via calibrating text-to-image attention with a learnable mask. Additionally, we design a two-stage training procedure to make UAR gradually grasp cross-modal alignments at different levels, which imitates radiologists' workflow: writing sentence by sentence first and then checking word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR benchmark datasets demonstrate the superiority of our UAR against varied state-of-the-art methods.
updated: Wed Mar 29 2023 09:11:51 GMT+0000 (UTC)
published: Tue Mar 28 2023 12:42:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト