arXiv reaDer
動的3D点群シーケンスのためのアンカーベースの時空間注意3D畳み込みネットワーク
Anchor-Based Spatio-Temporal Attention 3D Convolutional Networks for Dynamic 3D Point Cloud Sequences
測定技術の急速な発展に伴い、LiDARおよび深度カメラは3D環境の認識に広く使用されています。ロボット知覚のための最近の学習ベースの方法は、画像またはビデオに最も焦点を当てていますが、動的な3D点群シーケンスのための深層学習方法は十分に検討されていません。したがって、これらの高度な機器と互換性のある効率的で正確な知覚方法を開発することは、自動運転およびサービスロボットにとって極めて重要です。アンカーベースの時空間注意3D畳み込み演算(ASTA3DConv)は、動的3D点群シーケンスを処理するためにこの論文で提案されています。提案された畳み込み演算は、各ポイントの周りにいくつかの仮想アンカーを設定することにより、各ポイントの周りに通常の受容野を構築します。近隣ポイントの特徴は、最初に時空間的注意メカニズムに基づいて各アンカーに集約されます。次に、アンカーベースの3D畳み込みを採用して、これらのアンカーの機能をコアポイントに集約します。提案された方法は、局所領域内の構造化された情報をよりよく利用し、動的な3D点群シーケンスから時空間埋め込み特徴を学習します。アンカーベースの時空間注意3D畳み込みニューラルネットワーク(ASTA3DCNN)は、提案されたASTA3DConvに基づく分類およびセグメンテーションタスク用に構築され、アクション認識およびセマンティックセグメンテーションタスクで評価されます。 MSRAction3DおよびSynthiaデータセットの実験とアブレーション研究は、動的3D点群シーケンスに対する私たちの方法の優れたパフォーマンスと有効性を示しています。私たちの方法は、MSRAction3DおよびSynthiaデータセットへの入力として動的な3D点群シーケンスを使用する方法の中で最先端のパフォーマンスを実現します。
With the rapid development of measurement technology, LiDAR and depth cameras are widely used in the perception of the 3D environment. Recent learning based methods for robot perception most focus on the image or video, but deep learning methods for dynamic 3D point cloud sequences are underexplored. Therefore, developing efficient and accurate perception method compatible with these advanced instruments is pivotal to autonomous driving and service robots. An Anchor-based Spatio-Temporal Attention 3D Convolution operation (ASTA3DConv) is proposed in this paper to process dynamic 3D point cloud sequences. The proposed convolution operation builds a regular receptive field around each point by setting several virtual anchors around each point. The features of neighborhood points are firstly aggregated to each anchor based on the spatio-temporal attention mechanism. Then, anchor-based 3D convolution is adopted to aggregate these anchors' features to the core points. The proposed method makes better use of the structured information within the local region and learns spatio-temporal embedding features from dynamic 3D point cloud sequences. Anchor-based Spatio-Temporal Attention 3D Convolutional Neural Networks (ASTA3DCNNs) are built for classification and segmentation tasks based on the proposed ASTA3DConv and evaluated on action recognition and semantic segmentation tasks. The experiments and ablation studies on MSRAction3D and Synthia datasets demonstrate the superior performance and effectiveness of our method for dynamic 3D point cloud sequences. Our method achieves the state-of-the-art performance among the methods with dynamic 3D point cloud sequences as input on MSRAction3D and Synthia datasets.
updated: Thu Jul 29 2021 13:55:33 GMT+0000 (UTC)
published: Sun Dec 20 2020 07:35:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト