自動運転車と移動ロボットシステムには、通常、冗長性を提供するために複数のセンサーが装備されています。さまざまなセンサーからの観測を統合することにより、これらのモバイルエージェントは環境を認識し、システムの状態(場所や向きなど)を推定できます。マルチモーダルオドメトリの推定とローカリゼーションのための深層学習アプローチは注目を集めていますが、堅牢なセンサーフュージョンの問題に焦点を当てることはめったにありません。これは、現実の世界でノイズの多いまたは不完全なセンサー観測に対処するために必要な考慮事項です。さらに、現在のディープオドメトリモデルは解釈可能性の欠如に悩まされています。この点で、単眼画像や慣性測定、深度画像、LIDAR点群などのセンサーモダリティの有用なペアに適用できるエンドツーエンドの選択的センサーフュージョンモジュールであるSelectFusionを提案します。私たちのモデルは、特定のモダリティやタスクに制限されていない統一されたフレームワークです。予測中、ネットワークはさまざまなセンサーモダリティから潜在的な特徴の信頼性を評価し、スケールとグローバルポーズの両方で軌道を推定することができます。特に、決定論的ソフトフュージョンと確率的ハードフュージョンの2つのフュージョンモジュールを提案し、些細な直接フュージョンと比較した新しい戦略の包括的な研究を提供します。パブリックデータセットと、合成オクルージョン、ノイズの多いデータの欠落、センサー間の時間のずれを示す、徐々に劣化するデータセットの両方ですべての融合戦略を広範囲に評価し、最も信頼性の高い機能に対応するためのさまざまな融合戦略の有効性を調査します。 、さまざまなモデルの操作に関する洞察を提供します。
Autonomous vehicles and mobile robotic systems are typically equipped with multiple sensors to provide redundancy. By integrating the observations from different sensors, these mobile agents are able to perceive the environment and estimate system states, e.g. locations and orientations. Although deep learning approaches for multimodal odometry estimation and localization have gained traction, they rarely focus on the issue of robust sensor fusion - a necessary consideration to deal with noisy or incomplete sensor observations in the real world. Moreover, current deep odometry models suffer from a lack of interpretability. To this extent, we propose SelectFusion, an end-to-end selective sensor fusion module which can be applied to useful pairs of sensor modalities such as monocular images and inertial measurements, depth images and LIDAR point clouds. Our model is a uniform framework that is not restricted to specific modality or task. During prediction, the network is able to assess the reliability of the latent features from different sensor modalities and estimate trajectory both at scale and global pose. In particular, we propose two fusion modules - a deterministic soft fusion and a stochastic hard fusion, and offer a comprehensive study of the new strategies compared to trivial direct fusion. We extensively evaluate all fusion strategies in both public datasets and on progressively degraded datasets that present synthetic occlusions, noisy and missing data and time misalignment between sensors, and we investigate the effectiveness of the different fusion strategies in attending the most reliable features, which in itself, provides insights into the operation of the various models.