arXiv reaDer
Cross-CBAM: シーンセグメンテーションのための軽量ネットワーク
Cross-CBAM: A Lightweight network for Scene Segmentation
シーン解析は、リアルタイムのセマンティック セグメンテーションにとって大きな課題です。従来のセマンティック セグメンテーション ネットワークは、セマンティック精度において目覚ましい進歩を遂げましたが、推論速度のパフォーマンスは満足のいくものではありません。一方、この進歩は、かなり大規模なネットワークと強力な計算リソースによって達成されます。ただし、コンピューティング能力が限られているエッジ コンピューティング デバイス上で非常に大規模なモデルを実行することは困難であり、リアルタイムのセマンティック セグメンテーション タスクに大きな課題をもたらします。この論文では、リアルタイム セマンティック セグメンテーションのための新しい軽量ネットワークである Cross-CBAM ネットワークを紹介します。具体的には、可変視野およびマルチスケール情報を取得するために、スクイーズアンド励起アトロス空間ピラミッドプーリングモジュール(SE-ASPP)が提案されています。また、クロス畳み込みブロック アテンション モジュール(CCBAM)を提案します。このモジュールでは、CCBAM モジュール内でクロス乗算演算を使用して、高レベルの意味情報を低レベルの詳細情報に誘導します。これまでの作品とは異なり、これらの作品は注意を利用してバックボーン内の必要な情報に焦点を当てます。 CCBAM は、FPN 構造での機能融合にクロスアテンションを使用します。 Cityscapes データセットと Camvid データセットに対する広範な実験により、セグメンテーションの精度と推論速度の間で有望なトレードオフを達成することにより、提案された Cross-CBAM モデルの有効性が実証されました。 Cityscapes テスト セットでは、NVIDIA GTX 1080Ti で 240.9FPS の速度で 73.4% mIoU、88.6FPS の速度で 77.2% mIoU を達成しました。
Scene parsing is a great challenge for real-time semantic segmentation. Although traditional semantic segmentation networks have made remarkable leap-forwards in semantic accuracy, the performance of inference speed is unsatisfactory. Meanwhile, this progress is achieved with fairly large networks and powerful computational resources. However, it is difficult to run extremely large models on edge computing devices with limited computing power, which poses a huge challenge to the real-time semantic segmentation tasks. In this paper, we present the Cross-CBAM network, a novel lightweight network for real-time semantic segmentation. Specifically, a Squeeze-and-Excitation Atrous Spatial Pyramid Pooling Module(SE-ASPP) is proposed to get variable field-of-view and multiscale information. And we propose a Cross Convolutional Block Attention Module(CCBAM), in which a cross-multiply operation is employed in the CCBAM module to make high-level semantic information guide low-level detail information. Different from previous work, these works use attention to focus on the desired information in the backbone. CCBAM uses cross-attention for feature fusion in the FPN structure. Extensive experiments on the Cityscapes dataset and Camvid dataset demonstrate the effectiveness of the proposed Cross-CBAM model by achieving a promising trade-off between segmentation accuracy and inference speed. On the Cityscapes test set, we achieve 73.4% mIoU with a speed of 240.9FPS and 77.2% mIoU with a speed of 88.6FPS on NVIDIA GTX 1080Ti.
updated: Sun Jun 04 2023 09:03:05 GMT+0000 (UTC)
published: Sun Jun 04 2023 09:03:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト