この論文は、場所認識の目的で識別可能な3D点群記述子を計算するためのシンプルで効果的な学習ベースの方法を示しています。最近の最先端の方法は、ポイントトランスフォーマーのマルチスケールオイラミッドと機能集約モジュールのピラミッドを組み合わせたものなど、比較的複雑なアーキテクチャを備えています。私たちの方法は、チャネルアテンションブロックで強化された、まばらなボクセル化表現に基づく、シンプルで効率的な3D畳み込み特徴抽出を使用します。画像検索の最近の進歩を採用し、微分可能な平均精度近似に基づく損失関数の修正バージョンを提案します。このような損失関数は、最良の結果を得るために非常に大きなバッチでトレーニングする必要があります。これは、多段階のバックプロパゲーションを使用することで可能になります。人気のあるベンチマークでの実験的評価は、最先端技術を一貫して改善しながら、私たちのアプローチの有効性を証明しています
The paper presents a simple and effective learning-based method for computing a discriminative 3D point cloud descriptor for place recognition purposes. Recent state-of-the-art methods have relatively complex architectures such as multi-scale oyramid of point Transformers combined with a pyramid of feature aggregation modules. Our method uses a simple and efficient 3D convolutional feature extraction, based on a sparse voxelized representation, enhanced with channel attention blocks. We employ recent advances in image retrieval and propose a modified version of a loss function based on a differentiable average precision approximation. Such loss function requires training with very large batches for the best results. This is enabled by using multistaged backpropagation. Experimental evaluation on the popular benchmarks proves the effectiveness of our approach, with a consistent improvement over the state of the art