arXiv reaDer
ビデオポリープセグメンテーションのための漸進的に正規化された自己注意ネットワーク
Progressively Normalized Self-Attention Network for Video Polyp Segmentation
既存のビデオポリープセグメンテーション(VPS)モデルは、通常、畳み込みニューラルネットワーク(CNN)を使用して特徴を抽出します。ただし、受容野が限られているため、CNNは、連続するビデオフレームのグローバルな時間的および空間的情報を十分に活用できず、偽陽性のセグメンテーション結果が発生します。この論文では、単一のRTX 2080 GPUで、後処理なしでリアルタイム速度(〜140fps)でポリープビデオから表現を効率的に学習できる新しいPNS-Net(Progressively Normalized Self-attention Network)を提案します。私たちのPNS-Netは、基本的な正規化された自己注意ブロックのみに基づいており、再発とCNNを完全に備えています。挑戦的なVPSデータセットに関する実験は、提案されたPNS-Netが最先端のパフォーマンスを達成することを示しています。また、チャネル分割、ソフトアテンション、およびプログレッシブ学習戦略の有効性を研究するために、広範な実験を実施します。 PNS-Netはさまざまな設定で適切に機能し、VPSタスクの有望なソリューションであることがわかりました。
Existing video polyp segmentation (VPS) models typically employ convolutional neural networks (CNNs) to extract features. However, due to their limited receptive fields, CNNs can not fully exploit the global temporal and spatial information in successive video frames, resulting in false-positive segmentation results. In this paper, we propose the novel PNS-Net (Progressively Normalized Self-attention Network), which can efficiently learn representations from polyp videos with real-time speed (~140fps) on a single RTX 2080 GPU and no post-processing. Our PNS-Net is based solely on a basic normalized self-attention block, equipping with recurrence and CNNs entirely. Experiments on challenging VPS datasets demonstrate that the proposed PNS-Net achieves state-of-the-art performance. We also conduct extensive experiments to study the effectiveness of the channel split, soft-attention, and progressive learning strategy. We find that our PNS-Net works well under different settings, making it a promising solution to the VPS task.
updated: Mon May 24 2021 06:31:00 GMT+0000 (UTC)
published: Tue May 18 2021 12:20:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト