arXiv reaDer
シーンセグメンテーションのためのマルチシフトウィンドウでの自己注意
Self-attention on Multi-Shifted Windows for Scene Segmentation
画像のシーンセグメンテーションは、視覚的なコンテンツの理解において基本的でありながら困難な問題です。これは、すべての画像ピクセルをカテゴリラベルに割り当てるモデルを学習することです。この学習タスクの課題の1つは、空間的および意味的な関係を考慮して記述的な特徴表現を取得することです。したがって、複数のスケールから特徴マップを学習することは、シーンセグメンテーションの一般的な方法です。この論文では、マルチスケール画像ウィンドウ内での自己注意の効果的な使用を探求して記述的な視覚的特徴を学習し、次にこれらの特徴マップを集約して密な予測のために特徴表現をデコードする3つの異なる戦略を提案します。私たちの設計は、最近提案されたSwin Transformerモデルに基づいており、畳み込み演算を完全に破棄します。シンプルでありながら効果的なマルチスケールの特徴学習と集約により、私たちのモデルは、4つのパブリックシーンセグメンテーションデータセット、PASCAL VOC2012、COCO-Stuff 10K、ADE20K、Cityscapesで非常に有望なパフォーマンスを実現します。
Scene segmentation in images is a fundamental yet challenging problem in visual content understanding, which is to learn a model to assign every image pixel to a categorical label. One of the challenges for this learning task is to consider the spatial and semantic relationships to obtain descriptive feature representations, so learning the feature maps from multiple scales is a common practice in scene segmentation. In this paper, we explore the effective use of self-attention within multi-scale image windows to learn descriptive visual features, then propose three different strategies to aggregate these feature maps to decode the feature representation for dense prediction. Our design is based on the recently proposed Swin Transformer models, which totally discards convolution operations. With the simple yet effective multi-scale feature learning and aggregation, our models achieve very promising performance on four public scene segmentation datasets, PASCAL VOC2012, COCO-Stuff 10K, ADE20K and Cityscapes.
updated: Sun Jul 10 2022 07:36:36 GMT+0000 (UTC)
published: Sun Jul 10 2022 07:36:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト