arXiv reaDer
RGB-D屋内シーン分類のためのマルチネイバーフッドグラフ畳み込みを使用した2D-3D幾何学的融合ネットワーク
2D-3D Geometric Fusion Network using Multi-Neighbourhood Graph Convolution for RGB-D Indoor Scene Classification
マルチモーダルフュージョンは、シーン分類タスクのパフォーマンスを向上させるのに役立つことが証明されています。この論文では、3D幾何学的特徴と2D畳み込みニューラルネットワークによって得られた2Dテクスチャ特徴を組み合わせた2D-3D融合ステージを紹介します。堅牢な3D幾何学的埋め込みを取得するために、2つの新しいレイヤーを使用するネットワークが提案されています。最初のレイヤーであるMulti-NeighbourhoodGraph Convolutionは、2つの異なる近傍を組み合わせたシーンのより堅牢な幾何学的記述子を学習することを目的としています。1つはユークリッド空間にあり、もう1つは特徴空間にあります。 2番目に提案されたレイヤーであるNearestVoxel Poolingは、よく知られているVoxelPoolingのパフォーマンスを向上させます。 NYU-Depth-V2およびSUNRGB-Dデータセットを使用した実験結果は、提案された方法がRGB-D屋内シーン分類タスクの現在の最先端を上回っていることを示しています。
Multi-modal fusion has been proved to help enhance the performance of scene classification tasks. This paper presents a 2D-3D Fusion stage that combines 3D Geometric Features with 2D Texture Features obtained by 2D Convolutional Neural Networks. To get a robust 3D Geometric embedding, a network that uses two novel layers is proposed. The first layer, Multi-Neighbourhood Graph Convolution, aims to learn a more robust geometric descriptor of the scene combining two different neighbourhoods: one in the Euclidean space and the other in the Feature space. The second proposed layer, Nearest Voxel Pooling, improves the performance of the well-known Voxel Pooling. Experimental results, using NYU-Depth-V2 and SUN RGB-D datasets, show that the proposed method outperforms the current state-of-the-art in RGB-D indoor scene classification task.
updated: Thu May 27 2021 10:06:33 GMT+0000 (UTC)
published: Wed Sep 23 2020 13:58:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト