arXiv reaDer
正確な生物医学画像セグメンテーションのためのマルチコンパウンドトランスフォーマー
Multi-Compound Transformer for Accurate Biomedical Image Segmentation
最近のビジョントランスフォーマー(つまり、画像分類用)は、さまざまなパッチトークンの非ローカルで注意深い相互作用を学習します。ただし、従来の技術では、さまざまなピクセルのクロススケール依存関係、さまざまなラベルのセマンティック対応、および生物医学的セグメンテーションに重要な特徴表現とセマンティック埋め込みの一貫性の学習を見逃しています。この論文では、マルチコンパウンドトランスフォーマー(MCTrans)と呼ばれる統合トランスフォーマーネットワークを提案することにより、上記の問題に取り組みます。これは、豊富な特徴学習とセマンティック構造マイニングを統合フレームワークに組み込みます。具体的には、MCTransは、マルチスケールの畳み込み特徴をトークンのシーケンスとして埋め込み、以前の作業での単一スケールの注意ではなく、スケール内およびスケール間の自己注意を実行します。さらに、学習可能なプロキシ埋め込みも導入され、それぞれ自己注意と相互注意を使用して、意味関係と機能拡張をモデル化します。 MCTransは、UNetのようなネットワークに簡単に接続でき、6つの標準ベンチマークで生物医学画像セグメンテーションの最先端の方法を大幅に改善します。たとえば、MCTransは、Pannuke、CVC-Clinic、CVC-Colon、Etis、Kavirs、ISIC2018データセットでそれぞれ3.64%、3.71%、4.34%、2.8%、1.88%、1.57%だけUNetを上回っています。コードはhttps://github.com/JiYuanFeng/MCTransで入手できます。
The recent vision transformer(i.e.for image classification) learns non-local attentive interaction of different patch tokens. However, prior arts miss learning the cross-scale dependencies of different pixels, the semantic correspondence of different labels, and the consistency of the feature representations and semantic embeddings, which are critical for biomedical segmentation. In this paper, we tackle the above issues by proposing a unified transformer network, termed Multi-Compound Transformer (MCTrans), which incorporates rich feature learning and semantic structure mining into a unified framework. Specifically, MCTrans embeds the multi-scale convolutional features as a sequence of tokens and performs intra- and inter-scale self-attention, rather than single-scale attention in previous works. In addition, a learnable proxy embedding is also introduced to model semantic relationship and feature enhancement by using self-attention and cross-attention, respectively. MCTrans can be easily plugged into a UNet-like network and attains a significant improvement over the state-of-the-art methods in biomedical image segmentation in six standard benchmarks. For example, MCTrans outperforms UNet by 3.64%, 3.71%, 4.34%, 2.8%, 1.88%, 1.57% in Pannuke, CVC-Clinic, CVC-Colon, Etis, Kavirs, ISIC2018 dataset, respectively. Code is available at https://github.com/JiYuanFeng/MCTrans.
updated: Mon Jun 28 2021 03:45:44 GMT+0000 (UTC)
published: Mon Jun 28 2021 03:45:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト