RFBNet: Deep Multimodal Networks with Residual Fusion Blocks for RGB-D Semantic Segmentation
  RGB-Dセマンティックセグメンテーション法は、従来2つの独立したエンコーダーを使用して、RGBおよび深度データから特徴を抽出します。ただし、複数のモダリティからの補足情報を完全に活用するために、エンコーダをブリッジする効果的な融合メカニズムがありません。この論文は、エンコーダ間の相互依存性をモデル化するための新しいボトムアップのインタラクティブな融合構造を提案します。この構造は、エンコーダーを相互接続するための相互作用ストリームを導入します。インタラクションストリームは、エンコーダからモダリティ固有の機能を徐々に集約するだけでなく、それらの補完的な機能も計算します。この構造をインスタンス化するために、この論文では、エンコーダの相互依存関係を定式化する残差融合ブロック(RFB)を提案しています。 RFBは、2つの残留ユニットと、ゲートメカニズムを備えた1つの融合ユニットで構成されています。モダリティ固有のエンコーダの補完的な機能を学習し、モダリティ固有の機能とクロスモーダル機能を抽出します。 RFBに基づいて、このペーパーでは、RFBNetと呼ばれるRGB-Dセマンティックセグメンテーション用のディープマルチモーダルネットワークを紹介します。 2つのデータセットの実験は、相互依存関係のモデリングの有効性と、RFBNetが最先端のパフォーマンスを達成したことを示しています。
RGB-D semantic segmentation methods conventionally use two independent encoders to extract features from the RGB and depth data. However, there lacks an effective fusion mechanism to bridge the encoders, for the purpose of fully exploiting the complementary information from multiple modalities. This paper proposes a novel bottom-up interactive fusion structure to model the interdependencies between the encoders. The structure introduces an interaction stream to interconnect the encoders. The interaction stream not only progressively aggregates modality-specific features from the encoders but also computes complementary features for them. To instantiate this structure, the paper proposes a residual fusion block (RFB) to formulate the interdependences of the encoders. The RFB consists of two residual units and one fusion unit with gate mechanism. It learns complementary features for the modality-specific encoders and extracts modality-specific features as well as cross-modal features. Based on the RFB, the paper presents the deep multimodal networks for RGB-D semantic segmentation called RFBNet. The experiments on two datasets demonstrate the effectiveness of modeling the interdependencies and that the RFBNet achieved state-of-the-art performance.
updated: Mon Sep 16 2019 13:03:50 GMT+0000 (UTC)
published: Sat Jun 29 2019 02:51:29 GMT+0000 (UTC)
