最近、多くの研究が、マルチモーダル事前トレーニングの目的で自己注意ベースのTransformerアーキテクチャを拡張することにより、画像キャプションや視覚的な質問応答などの多様な視覚言語マルチモーダルタスクで印象的なパフォーマンスを示しました。その大きな可能性にもかかわらず、医療分野での視覚言語マルチモーダル事前トレーニングは最近注目を集めており、視覚言語事前トレーニングモデルの診断精度の向上のみを示しています。この作業では、特に放射線画像と非構造化レポートを使用して、医療分野でのマルチモーダル表現学習タスクの幅広いセットを探索します。トランスフォーマーベースのアーキテクチャと新しいマルチモーダル注意マスキングスキームを組み合わせて、視覚言語理解タスク(診断分類など)と視覚言語生成タスク(放射線レポート生成など)の両方の一般化パフォーマンスを最大化する新しいモデルを提案します。 3つのX線画像テキストデータセット(MIMIC-CXR、Open-I、およびVQA-RAD)を使用して4つのダウンストリームタスクで提案されたモデルを厳密に評価することにより、タスクを含むさまざまなベースラインに対するモデルの優れたダウンストリームタスクパフォーマンスと一般性を実証的に示します。特定のアーキテクチャ。さらに、取得した画像とレポートのペア、アテンションマップの視覚化、および生成されたレポートの結果を表示することにより、モデルを定性的に分析します。私たちが提案するマルチモーダル事前トレーニングモデルは、新しい自己注意スキームを使用して、視覚言語の理解と生成の複数のダウンストリームタスクに柔軟に適応できます。私たちのアプローチは、医療分野における視覚言語マルチモーダルの幅広い解釈の基礎を提供できると信じています。
Recently a number of studies demonstrated impressive performance on diverse vision-language multimodal tasks such as image captioning and visual question answering by extending the self-attention based Transformer architecture with multimodal pre-training objectives. Despite its huge potential, vision-language multimodal pre-training in the medical domain has only recently received attention, and only demonstrated improved diagnosis accuracy of vision-language pre-trained models. In this work we explore a broad set of multimodal representation learning tasks in the medical domain, specifically using radiology images and the unstructured report. We propose a new model which adopts a Transformer based architecture combined with a novel multimodal attention masking scheme to maximize generalization performance for both vision-language understanding task (e.g., diagnosis classification) and vision-language generation task (e.g., radiology report generation). By rigorously evaluating the proposed model on four downstream tasks with three radiographic image-text datasets (MIMIC-CXR, Open-I, and VQA-RAD), we empirically demonstrate the superior downstream task performance and generality of our model against various baselines including task specific architectures. In addition, we qualitatively analyze our model by showing the results of retrieved image-report pairs, the attention map visualization, and generated reports. Our proposed multimodal pre-training model could flexibly adapt to multiple downstream tasks of vision-language understanding and generation with a novel self-attention scheme. We believe that our approach can provide the basis for a wide range of interpretations of vision-language multimodal in the medical domain.