arXiv reaDer
CAMANet: 放射線レポート生成のための Class Activation Map Guided Attention ネットワーク
CAMANet: Class Activation Map Guided Attention Network for Radiology Report Generation
放射線レポート生成 (RRG) は、医療リソースの不足を緩和し、放射線科医による疾患の意思決定プロセスを支援する大きな可能性があるため、研究の注目を集めています。放射線レポート生成 (RRG) の最近の進歩は、単一モードの特徴表現をエンコードするモデルの機能の向上によって大きく推進されていますが、画像領域と単語の間のクロスモーダル アラインメントを明示的に調査する研究はほとんどありません。放射線科医は通常、対応するテキストの説明を作成する前にまず異常な画像領域に焦点を当てます。したがって、異常を認識する RRG モデルを学習するには、クロスモーダル アラインメントが非常に重要です。これに動機付けられて、集約されたクラス活性化マップを使用してクロスモーダル注意学習を監督することにより、クロスモーダル アラインメントを明示的に促進し、同時に識別情報を強化するクラス活性化マップ ガイド付きアテンション ネットワーク (CAMANet) を提案します。実験結果は、一般的に使用される 2 つの RRG ベンチマークで、CAMANet が以前の SOTA メソッドよりも優れていることを示しています。
Radiology report generation (RRG) has gained increasing research attention because of its huge potential to mitigate medical resource shortages and aid the process of disease decision making by radiologists. Recent advancements in Radiology Report Generation (RRG) are largely driven by improving models' capabilities in encoding single-modal feature representations, while few studies explore explicitly the cross-modal alignment between image regions and words. Radiologists typically focus first on abnormal image regions before they compose the corresponding text descriptions, thus cross-modal alignment is of great importance to learn an abnormality-aware RRG model. Motivated by this, we propose a Class Activation Map guided Attention Network (CAMANet) which explicitly promotes cross-modal alignment by employing the aggregated class activation maps to supervise the cross-modal attention learning, and simultaneously enriches the discriminative information. Experimental results demonstrate that CAMANet outperforms previous SOTA methods on two commonly used RRG benchmarks.
updated: Wed Nov 02 2022 18:14:33 GMT+0000 (UTC)
published: Wed Nov 02 2022 18:14:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト