arXiv reaDer
セグメンテーションベースの知覚損失の微調整による医用画像の超解像のための残留高密度視覚変換器
A residual dense vision transformer for medical image super-resolution with segmentation-based perceptual loss fine-tuning
超解像は、追加の取得コストなしで高い空間解像度と画質を達成するための代替方法を提供するため、医療画像処理において重要な役割を果たします。過去数十年で、ディープ ニューラル ネットワークの急速な発展により、新しいネットワーク アーキテクチャ、損失関数、および評価指標による超解像性能が促進されました。具体的には、ビジョン トランスフォーマーは幅広いコンピューター ビジョン タスクを支配していますが、それらを低レベルの医療画像処理タスクに適用する場合にはまだ課題が存在します。この論文では、医療モダリティの効率的な単一画像超解像 (SISR) を実現するために、残留密結合と局所特徴融合を備えた効率的なビジョン トランスフォーマーを提案します。さらに、医用画像セグメンテーションの事前知識を組み込むことにより、望ましい側面の画質改善のための手動制御による汎用知覚損失を実装します。 4 つの公開医用画像データセットに対する最先端の方法と比較して、提案された方法は、7 つのモダリティのうち 6 つのモダリティの最高の PSNR スコアを達成します。これは、SwinIR の 38% のパラメーターのみで、平均 +0.09 dB PSNR の改善につながります。一方、セグメンテーションに基づく知覚的損失は、CNN やビジョン トランスフォーマーを含む SOTA メソッドの平均で +0.14 dB PSNR を増加させます。さらに、包括的なアブレーション研究を実施して、CNN を超えるビジョン トランスフォーマーの優れたパフォーマンスの潜在的な要因と、ネットワークおよび損失関数コンポーネントの影響について説明します。コードは GitHub でリリースされ、論文が公開されます。
Super-resolution plays an essential role in medical imaging because it provides an alternative way to achieve high spatial resolutions and image quality with no extra acquisition costs. In the past few decades, the rapid development of deep neural networks has promoted super-resolution performance with novel network architectures, loss functions and evaluation metrics. Specifically, vision transformers dominate a broad range of computer vision tasks, but challenges still exist when applying them to low-level medical image processing tasks. This paper proposes an efficient vision transformer with residual dense connections and local feature fusion to achieve efficient single-image super-resolution (SISR) of medical modalities. Moreover, we implement a general-purpose perceptual loss with manual control for image quality improvements of desired aspects by incorporating prior knowledge of medical image segmentation. Compared with state-of-the-art methods on four public medical image datasets, the proposed method achieves the best PSNR scores of 6 modalities among seven modalities. It leads to an average improvement of +0.09 dB PSNR with only 38% parameters of SwinIR. On the other hand, the segmentation-based perceptual loss increases +0.14 dB PSNR on average for SOTA methods, including CNNs and vision transformers. Additionally, we conduct comprehensive ablation studies to discuss potential factors for the superior performance of vision transformers over CNNs and the impacts of network and loss function components. The code will be released on GitHub with the paper published.
updated: Fri Mar 03 2023 06:51:27 GMT+0000 (UTC)
published: Wed Feb 22 2023 07:39:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト