マルチモーダルフュージョンは、自動運転知覚の物体検出に関して初期の有望な結果を示しました。しかし、多くの既存の融合スキームは各融合入力の品質を考慮しておらず、1 つまたは複数のセンサーで悪条件が発生する可能性があります。予測不確実性は、実行時の単一モードの物体検出パフォーマンスを特徴付けるために適用されてきましたが、不確実性をマルチモーダル融合に組み込むには、主に不確実性のクロスモーダルの比較不可能性と、さまざまな悪条件に対する明確な敏感性により、依然として効果的な解決策が不足しています。このギャップを埋めるために、この論文では、単一モードの不確実性を LiDAR とカメラの融合に明示的に組み込む不確実性エンコード専門家混合 (UMoE) を提案します。 UMoE は、個別の専門家ネットワークを使用して、各センサーの検出結果をエンコードされた不確実性とともに処理します。次に、エキスパート ネットワークの出力がゲーティング ネットワークによって分析され、融合重みが決定されます。提案された UMoE モジュールは、任意の提案融合パイプラインに統合できます。評価の結果、UMoE は、異常気象、敵対的、目くらまし攻撃のシナリオの下で、最先端の提案レベルのマルチモーダル物体検出器と比較して、最大 10.67%、3.17%、および 5.40% のパフォーマンス向上を達成することが示されています。
Multi-modal fusion has shown initial promising results for object detection of autonomous driving perception. However, many existing fusion schemes do not consider the quality of each fusion input and may suffer from adverse conditions on one or more sensors. While predictive uncertainty has been applied to characterize single-modal object detection performance at run time, incorporating uncertainties into the multi-modal fusion still lacks effective solutions due primarily to the uncertainty's cross-modal incomparability and distinct sensitivities to various adverse conditions. To fill this gap, this paper proposes Uncertainty-Encoded Mixture-of-Experts (UMoE) that explicitly incorporates single-modal uncertainties into LiDAR-camera fusion. UMoE uses individual expert network to process each sensor's detection result together with encoded uncertainty. Then, the expert networks' outputs are analyzed by a gating network to determine the fusion weights. The proposed UMoE module can be integrated into any proposal fusion pipeline. Evaluation shows that UMoE achieves a maximum of 10.67%, 3.17%, and 5.40% performance gain compared with the state-of-the-art proposal-level multi-modal object detectors under extreme weather, adversarial, and blinding attack scenarios.