LiDAR によって生成された点群は、屋外環境を認識するために重要です。点群のセグメント化も多くのアプリケーションにとって不可欠です。これまでの研究は、セマンティック セグメンテーション アーキテクチャでセルフ アテンションと畳み込み (ローカル アテンション) メカニズムを個別に使用することに焦点を当てていました。ただし、これらの注意メカニズムの学習された表現を組み合わせてパフォーマンスを向上させる取り組みは限られています。さらに、畳み込みと自己注意を組み合わせた既存の研究は、グローバルな注意に依存しているため、大規模な点群の処理には実用的ではありません。これらの課題に対処するために、この研究では新しいアーキテクチャ pCTFusion を提案します。これは、カーネルベースの畳み込みとセルフ アテンション メカニズムを組み合わせて、特徴学習を改善し、セグメンテーションにおけるローカルおよびグローバルな依存関係をキャプチャします。提案されたアーキテクチャは、エンコーダ ブロックの階層位置に基づいて、ローカルとグローバルの 2 種類のセルフ アテンション メカニズムを採用しています。さらに、既存の損失関数は、ポイントの意味論的および位置に関する重要性を考慮していないため、特に明確なクラス境界で精度が低下します。これを克服するために、この研究では、近傍内の点の意味分布に基づいて重みを割り当てる、Pointwise Geometric Anisotropy (PGA) と呼ばれる新しい注意ベースの損失関数をモデル化しました。提案されたアーキテクチャは SemanticKITTI 屋外データセットで評価され、最先端のアーキテクチャと比較してパフォーマンスが 5 ~ 7% 向上したことが示されました。この結果は、クラスの不均衡、スペース不足、近隣認識特徴エンコーディングにより誤分類されることが多いマイナー クラスにとって特に有望です。これらの開発された手法は、複雑なデータセットのセグメンテーションに活用でき、LiDAR 点群の実世界のアプリケーションを推進できます。
LiDAR-generated point clouds are crucial for perceiving outdoor environments. The segmentation of point clouds is also essential for many applications. Previous research has focused on using self-attention and convolution (local attention) mechanisms individually in semantic segmentation architectures. However, there is limited work on combining the learned representations of these attention mechanisms to improve performance. Additionally, existing research that combines convolution with self-attention relies on global attention, which is not practical for processing large point clouds. To address these challenges, this study proposes a new architecture, pCTFusion, which combines kernel-based convolutions and self-attention mechanisms for better feature learning and capturing local and global dependencies in segmentation. The proposed architecture employs two types of self-attention mechanisms, local and global, based on the hierarchical positions of the encoder blocks. Furthermore, the existing loss functions do not consider the semantic and position-wise importance of the points, resulting in reduced accuracy, particularly at sharp class boundaries. To overcome this, the study models a novel attention-based loss function called Pointwise Geometric Anisotropy (PGA), which assigns weights based on the semantic distribution of points in a neighborhood. The proposed architecture is evaluated on SemanticKITTI outdoor dataset and showed a 5-7% improvement in performance compared to the state-of-the-art architectures. The results are particularly encouraging for minor classes, often misclassified due to class imbalance, lack of space, and neighbor-aware feature encoding. These developed methods can be leveraged for the segmentation of complex datasets and can drive real-world applications of LiDAR point cloud.