センサーのマルチモーダル フュージョンは、移動ロボットの基本モジュールでもあるオドメトリ推定のパフォーマンスを向上させるために一般的に使用されるアプローチです。しかし、教師ありセンサー融合オドメトリー推定タスクで異なるモダリティ間の融合をどのように実行するかという問題はありますか?は依然として挑戦的な課題の 1 つです。要素ごとの合計や連結などのいくつかの単純な操作では、異なるモダリティを効率的に組み込むために適応的な注意の重みを割り当てることができないため、競争力のあるオドメトリ結果を達成することが困難になります。最近、Transformer アーキテクチャは、特に視覚と言語の領域で、マルチモーダル フュージョン タスクの可能性を示しています。この作業では、オドメトリ推定のためのエンドツーエンドの教師付きトランスフォーマーベースの LiDAR-慣性融合フレームワーク (つまり、TransFusionOdom) を提案します。マルチアテンション フュージョン モジュールは、モデルの複雑さをやみくもに増加させることから生じるオーバーフィッティングの問題に対処するために、同種および異種モダリティのさまざまな融合アプローチを示します。さらに、Transformer ベースのマルチモーダル インタラクションの学習プロセスを解釈するために、一般的な視覚化アプローチを導入して、モダリティ間のインタラクションを説明します。さらに、徹底的なアブレーション研究は、提案された融合戦略のパフォーマンスを検証するために、さまざまなマルチモーダル融合戦略を評価します。合成マルチモーダル データセットは、提案された融合戦略の一般化能力を検証するために公開されます。これは、異なるモダリティの他の組み合わせでも機能します。 KITTI データセットの定量的および定性的オドメトリ評価により、提案された TransFusionOdom が他の関連作品と比較して優れたパフォーマンスを達成できることが検証されます。
Multi-modal fusion of sensors is a commonly used approach to enhance the performance of odometry estimation, which is also a fundamental module for mobile robots. However, the question of how to perform fusion among different modalities in a supervised sensor fusion odometry estimation task? is still one of challenging issues remains. Some simple operations, such as element-wise summation and concatenation, are not capable of assigning adaptive attentional weights to incorporate different modalities efficiently, which make it difficult to achieve competitive odometry results. Recently, the Transformer architecture has shown potential for multi-modal fusion tasks, particularly in the domains of vision with language. In this work, we propose an end-to-end supervised Transformer-based LiDAR-Inertial fusion framework (namely TransFusionOdom) for odometry estimation. The multi-attention fusion module demonstrates different fusion approaches for homogeneous and heterogeneous modalities to address the overfitting problem that can arise from blindly increasing the complexity of the model. Additionally, to interpret the learning process of the Transformer-based multi-modal interactions, a general visualization approach is introduced to illustrate the interactions between modalities. Moreover, exhaustive ablation studies evaluate different multi-modal fusion strategies to verify the performance of the proposed fusion strategy. A synthetic multi-modal dataset is made public to validate the generalization ability of the proposed fusion strategy, which also works for other combinations of different modalities. The quantitative and qualitative odometry evaluations on the KITTI dataset verify the proposed TransFusionOdom could achieve superior performance compared with other related works.