arXiv reaDer
ViTBIS:生物医学画像セグメンテーションのためのビジョントランスフォーマー
ViTBIS: Vision Transformer for Biomedical Image Segmentation
この論文では、生物医学画像セグメンテーションのためのビジョントランスフォーマー(ViTBIS)という名前の新しいネットワークを提案します。私たちのネットワークは、入力機能マップを3つの部分に分割し、エンコーダーとデコーダーの両方で1×1、3×3、5×5の畳み込みを行います。 Concat演算子は、注意メカニズムが埋め込まれた3つの連続する変圧器ブロックに供給される前に機能をマージするために使用されます。スキップ接続は、エンコーダーとデコーダーのトランスブロックを接続するために使用されます。同様に、変圧器ブロックとマルチスケールアーキテクチャは、出力セグメンテーションマップを生成するために線形に投影される前にデコーダーで使用されます。 Synapse多臓器セグメンテーションデータセット、自動心臓診断チャレンジデータセット、脳腫瘍MRIセグメンテーションデータセット、および脾臓CTセグメンテーションデータセットを使用して、ネットワークのパフォーマンスをテストします。ベルやホイッスルがない場合、私たちのネットワークは、評価指標としてダイススコアとハウスドルフ距離を使用した、以前の最先端のCNNおよびトランスフォーマーベースのモデルのほとんどを上回ります。
In this paper, we propose a novel network named Vision Transformer for Biomedical Image Segmentation (ViTBIS). Our network splits the input feature maps into three parts with 1×1, 3×3 and 5×5 convolutions in both encoder and decoder. Concat operator is used to merge the features before being fed to three consecutive transformer blocks with attention mechanism embedded inside it. Skip connections are used to connect encoder and decoder transformer blocks. Similarly, transformer blocks and multi scale architecture is used in decoder before being linearly projected to produce the output segmentation map. We test the performance of our network using Synapse multi-organ segmentation dataset, Automated cardiac diagnosis challenge dataset, Brain tumour MRI segmentation dataset and Spleen CT segmentation dataset. Without bells and whistles, our network outperforms most of the previous state of the art CNN and transformer based models using Dice score and the Hausdorff distance as the evaluation metrics.
updated: Sat Jan 15 2022 20:44:45 GMT+0000 (UTC)
published: Sat Jan 15 2022 20:44:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト