3D Neighborhood Convolution: Learning Depth-Aware Features for RGB-D and RGB Semantic Segmentation
  RGB-Dセグメンテーションの重要な課題は、深度チャネルからの3Dジオメトリ情報を2D外観機能に効果的に組み込む方法です。 3D近傍からのスケールと局所性に基づいて、2D畳み込みの効果的な受容野をモデル化することを提案します。標準の畳み込みは、画像空間($ u、v $)内で局所的であり、多くの場合、3x3ピクセルの固定受容野を持ちます。 3D実世界空間($ x、y、z $)の対応する点に関して局所的な畳み込みを定義することを提案します。ここでは、深さチャネルを使用して畳み込みの受容フィールドを調整し、結果のフィルター不変量を生成します。特定の範囲の深度に拡大縮小して焦点を合わせます。 3D近傍の畳み込み演算子である3D近傍畳み込み(3DN-Conv)を紹介します。さらに、推定深度を使用して、RGB入力からのRGB-Dベースのセマンティックセグメンテーションモデルを使用できます。実験結果は、提案された3DN-Conv演算子が、地表深度(RGB-D)または推定深度(RGB)のいずれかを使用して、セマンティックセグメンテーションを改善することを検証します。
A key challenge for RGB-D segmentation is how to effectively incorporate 3D geometric information from the depth channel into 2D appearance features. We propose to model the effective receptive field of 2D convolution based on the scale and locality from the 3D neighborhood. Standard convolutions are local in the image space ($u, v$), often with a fixed receptive field of 3x3 pixels. We propose to define convolutions local with respect to the corresponding point in the 3D real-world space ($x, y, z$), where the depth channel is used to adapt the receptive field of the convolution, which yields the resulting filters invariant to scale and focusing on the certain range of depth. We introduce 3D Neighborhood Convolution (3DN-Conv), a convolutional operator around 3D neighborhoods. Further, we can use estimated depth to use our RGB-D based semantic segmentation model from RGB input. Experimental results validate that our proposed 3DN-Conv operator improves semantic segmentation, using either ground-truth depth (RGB-D) or estimated depth (RGB).
updated: Thu Oct 03 2019 13:34:04 GMT+0000 (UTC)
published: Thu Oct 03 2019 13:34:04 GMT+0000 (UTC)
