arXiv reaDer
PVT3D: スパース Lidar スキャンからの場所認識のためのポイント ボクセル トランスフォーマー
PVT3D: Point Voxel Transformers for Place Recognition from Sparse Lidar Scans
点群 (LiDAR) スキャンに基づく場所認識は、ロボットや自動運転車で堅牢な自律性を実現するための重要なモジュールです。このようなスキャンに一致するように深いネットワークをトレーニングすると、難しいトレードオフが生じます。微妙な幾何学的特徴のきめの細かい一致を実行するには、ネットワークの中間表現のより高い空間解像度が必要ですが、それを大きくしすぎると、メモリ要件が実行不可能になります。この作業では、低メモリ要件で堅牢なきめの細かいマッチングを実現する Point-Voxel Transformer ネットワーク (PVT3D) を提案します。まばらなボクセル ブランチを利用して、より低い解像度で情報を抽出および集約し、ポイントごとのブランチを利用して、きめ細かいローカル情報を取得します。新しい階層的クロスアテンション トランスフォーマー (HCAT) は、一方のブランチからのクエリを使用して、もう一方のブランチの構造と一致させようとし、両方が点群の自己完結型記述子を抽出することを保証します (1 つのブランチが支配するのではなく)。ただし、両方を使用して通知します。点群の出力グローバル記述子。広範な実験により、提案された PVT3D メソッドは、いくつかのデータセット (Oxford RobotCar、TUM、USyd) で最先端技術を大幅に上回ることが示されています。たとえば、TUM データセットで 85.6% の AR@1 を達成しました。これは、最も強力な以前のモデルを ~15% 上回っています。
Place recognition based on point cloud (LiDAR) scans is an important module for achieving robust autonomy in robots or self-driving vehicles. Training deep networks to match such scans presents a difficult trade-off: a higher spatial resolution of the network's intermediate representations is needed to perform fine-grained matching of subtle geometric features, but growing it too large makes the memory requirements infeasible. In this work, we propose a Point-Voxel Transformer network (PVT3D) that achieves robust fine-grained matching with low memory requirements. It leverages a sparse voxel branch to extract and aggregate information at a lower resolution and a point-wise branch to obtain fine-grained local information. A novel hierarchical cross-attention transformer (HCAT) uses queries from one branch to try to match structures in the other branch, ensuring that both extract self-contained descriptors of the point cloud (rather than one branch dominating), but using both to inform the output global descriptor of the point cloud. Extensive experiments show that the proposed PVT3D method surpasses the state-of-the-art by a large amount on several datasets (Oxford RobotCar, TUM, USyd). For instance, we achieve AR@1 of 85.6% on the TUM dataset, which surpasses the strongest prior model by ~15%.
updated: Tue Nov 22 2022 19:18:30 GMT+0000 (UTC)
published: Tue Nov 22 2022 19:18:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト