レントゲン写真表現学習における現代の研究は、不変のセマンティクスをエンコードするための自己監督、または医療専門知識を組み込むための関連する放射線レポートのいずれかに依存していますが、それらの間の補完性はほとんど注目されていません。これを調査するために、自己完了とレポート完了を 2 つの補完的な目的として定式化し、マスクされたレコード モデリング (MRM) に基づく統一されたフレームワークを提示します。実際には、MRM はマスクされた画像パッチとマスクされたレポート トークンをマルチタスク スキームに従って再構築し、知識が強化されたセマンティック表現を学習します。 MRM の事前トレーニングにより、さまざまな X 線撮影タスクにうまく移行できる事前トレーニング済みのモデルが得られます。具体的には、MRM がラベル効率の高い微調整において優れたパフォーマンスを提供することがわかりました。たとえば、MRM は 1% のラベル付きデータを使用して CheXpert で 88.5% の平均 AUC を達成し、100% のラベルを使用した以前の R^2L メソッドよりも優れています。 NIH 胸部 X 線では、MRM は、小さな標識比率の下で、最高のパフォーマンスを発揮する対応物よりも約 3% 優れています。その上、MRM は、肺炎の種類と気胸の領域を特定する際に、自己およびレポートで監視された事前トレーニングを、場合によっては大幅に上回っています。
Modern studies in radiograph representation learning rely on either self-supervision to encode invariant semantics or associated radiology reports to incorporate medical expertise, while the complementarity between them is barely noticed. To explore this, we formulate the self- and report-completion as two complementary objectives and present a unified framework based on masked record modeling (MRM). In practice, MRM reconstructs masked image patches and masked report tokens following a multi-task scheme to learn knowledge-enhanced semantic representations. With MRM pre-training, we obtain pre-trained models that can be well transferred to various radiography tasks. Specifically, we find that MRM offers superior performance in label-efficient fine-tuning. For instance, MRM achieves 88.5% mean AUC on CheXpert using 1% labeled data, outperforming previous R^2L methods with 100% labels. On NIH ChestX-ray, MRM outperforms the best performing counterpart by about 3% under small labeling ratios. Besides, MRM surpasses self- and report-supervised pre-training in identifying the pneumonia type and the pneumothorax area, sometimes by large margins.