マルチモーダルイメージングは、複数の個別のスキャンに関連するコストのために十分に活用されていないことが多い主要な医療技術です。この制限により、利用可能なモダリティのサブセットから未取得のモダリティを合成する必要が生じます。近年、構造の詳細の優れた描写を備えた生成的敵対的ネットワーク(GAN)モデルが、多くの医用画像合成タスクの最先端として確立されています。 GANは、コンパクトなフィルターを使用してローカル処理を実行する畳み込みニューラルネットワーク(CNN)バックボーンに基づいているのが特徴です。この誘導バイアスは、コンテキスト機能の学習を損ないます。ここでは、畳み込み演算子の局所精度と視覚変換器のコンテキスト感度を組み合わせるための、医用画像合成のための新しい生成的敵対的アプローチ、ResViTを提案します。 ResViTは、畳み込みモジュールと変圧器モジュールを相乗的に組み合わせる新しい集約残余変圧器(ART)ブロックで構成される中央のボトルネックを採用しています。マルチコントラストMRIおよびMRIからのCT画像で欠落しているシーケンスを合成するための包括的なデモンストレーションが実行されます。私たちの結果は、定性的観察と定量的測定基準の点で、競合する方法に対するResViTの優位性を示しています。
Multi-modal imaging is a key healthcare technology that is often underutilized due to costs associated with multiple separate scans. This limitation yields the need for synthesis of unacquired modalities from the subset of available modalities. In recent years, generative adversarial network (GAN) models with superior depiction of structural details have been established as state-of-the-art in numerous medical image synthesis tasks. GANs are characteristically based on convolutional neural network (CNN) backbones that perform local processing with compact filters. This inductive bias in turn compromises learning of contextual features. Here, we propose a novel generative adversarial approach for medical image synthesis, ResViT, to combine local precision of convolution operators with contextual sensitivity of vision transformers. ResViT employs a central bottleneck comprising novel aggregated residual transformer (ART) blocks that synergistically combine convolutional and transformer modules. Comprehensive demonstrations are performed for synthesizing missing sequences in multi-contrast MRI, and CT images from MRI. Our results indicate superiority of ResViT against competing methods in terms of qualitative observations and quantitative metrics.