リアルタイムのセマンティックセグメンテーションは、自動運転、ロボット工学などの産業アプリケーションで重要な役割を果たします。効率とパフォーマンスの両方を同時に考慮する必要があるため、これは困難な作業です。このような複雑なタスクに対処するために、このホワイトペーパーでは、高速かつ正確な知覚を実現するMultiply Spatial Fusion Network(MSFNet)と呼ばれる効率的なCNNを提案します。提案されたMSFNetは、クラス境界監視を使用して、空間情報を取得し、受容野を拡大できる提案されたマルチ機能融合モジュールに基づいて、関連する境界情報を処理します。したがって、1/8の元の画像サイズの特徴マップの最終的なアップサンプリングにより、高速を維持しながら印象的な結果を得ることができます。 CityscapesおよびCamvidデータセットの実験は、既存のアプローチと比較した提案されたアプローチの明らかな利点を示しています。具体的には、1024 * 2048入力で41 FPSの速度でCityscapesテストデータセットで77.1%Mean IOUを達成し、Camvidテストデータセットで91 FPSの速度で75.4%Mean IOUを達成します。
Real-time semantic segmentation plays a significant role in industry applications, such as autonomous driving, robotics and so on. It is a challenging task as both efficiency and performance need to be considered simultaneously. To address such a complex task, this paper proposes an efficient CNN called Multiply Spatial Fusion Network (MSFNet) to achieve fast and accurate perception. The proposed MSFNet uses Class Boundary Supervision to process the relevant boundary information based on our proposed Multi-features Fusion Module which can obtain spatial information and enlarge receptive field. Therefore, the final upsampling of the feature maps of 1/8 original image size can achieve impressive results while maintaining a high speed. Experiments on Cityscapes and Camvid datasets show an obvious advantage of the proposed approach compared with the existing approaches. Specifically, it achieves 77.1% Mean IOU on the Cityscapes test dataset with the speed of 41 FPS for a 1024*2048 input, and 75.4% Mean IOU with the speed of 91 FPS on the Camvid test dataset.