シーン深度情報は、より正確なセマンティックセグメンテーションのための視覚情報に役立ちます。ただし、マルチモダリティ情報を代表的な機能に効果的に統合する方法は、依然として未解決の問題です。既存の作業のほとんどは、DCNNを使用してマルチモダリティ情報を暗黙的に融合します。ただし、ネットワークが深くなると、いくつかの重要な識別機能が失われ、セグメンテーションのパフォーマンスが低下する可能性があります。この作業は、マルチモダリティ情報の明示的な融合に使用される対称クロスモダリティ残差融合モジュールを含む、統一された効率的な機能選択と融合ネットワーク(FSFNet)を提案します。さらに、ネットワークには、ネットワークの転送プロセス中に低レベルの詳細情報を維持するために使用される詳細な機能伝播モジュールが含まれています。最先端の方法と比較して、実験的評価は、提案されたモデルが2つの公開データセットで競争力のあるパフォーマンスを達成することを示しています。
Scene depth information can help visual information for more accurate semantic segmentation. However, how to effectively integrate multi-modality information into representative features is still an open problem. Most of the existing work uses DCNNs to implicitly fuse multi-modality information. But as the network deepens, some critical distinguishing features may be lost, which reduces the segmentation performance. This work proposes a unified and efficient feature selectionand-fusion network (FSFNet), which contains a symmetric cross-modality residual fusion module used for explicit fusion of multi-modality information. Besides, the network includes a detailed feature propagation module, which is used to maintain low-level detailed information during the forward process of the network. Compared with the state-of-the-art methods, experimental evaluations demonstrate that the proposed model achieves competitive performance on two public datasets.