UNO: Uncertainty-aware Noisy-Or Multimodal Fusion for Unanticipated Input Degradation
 特にディープラーニングアーキテクチャによる複数のセンサーモダリティの融合は、活発な研究分野です。ただし、このような作業の未熟な側面は、特にトレーニング中に見られない劣化に一般化する必要がある場合に、入力モダリティ全体の劣化に対してメソッドがロバストであるかどうかです。この作業では、既知および未知の劣化の範囲に苦しむ可能性のある入力を効果的に融合するための不確実性を考慮した融合スキームを提案します。具体的には、それぞれが不確実性の異なる側面をキャプチャする多くの不確実性測定値を分析し、モダリティ固有の出力ソフトマックス確率をスケーリングすることにより、劣化した入力を融合する新しい方法を提案します。さらに、これらの既存の不確実性の尺度を補完するために、新しいデータ依存の空間温度スケーリング法を提案します。最後に、確率的ノイジーまたはフュージョン法を使用して、各モダリティからの不確実性スケール出力を統合します。フォトリアリスティックシミュレーション環境(AirSim)では、最新のフュージョンアーキテクチャと比較して、セグメンテーションセグメンテーションタスクで、劣化の範囲(霧、雪、霜、他のさまざまなタイプのノイズ)、その一部はトレーニング中に不明です。具体的には、さまざまな劣化に対して平均IoUが28%向上している[1]。 [1] Abhinav Valada、Rohit Mohan、Wolfram Burgard。マルチモーダルセマンティックセグメンテーションのための自己教師付きモデル適応。で:arXiv e-prints、arXiv:1808.03833(2018年8月)、arXiv:1808.03833。 arXiv:1808.03833 [cs.CV]。
The fusion of multiple sensor modalities, especially through deep learning architectures, has been an active area of study. However, an under-explored aspect of such work is whether the methods can be robust to degradations across their input modalities, especially when they must generalize to degradations not seen during training. In this work, we propose an uncertainty-aware fusion scheme to effectively fuse inputs that might suffer from a range of known and unknown degradations. Specifically, we analyze a number of uncertainty measures, each of which captures a different aspect of uncertainty, and we propose a novel way to fuse degraded inputs by scaling modality-specific output softmax probabilities. We additionally propose a novel data-dependent spatial temperature scaling method to complement these existing uncertainty measures. Finally, we integrate the uncertainty-scaled output from each modality using a probabilistic noisy-or fusion method. In a photo-realistic simulation environment (AirSim), we show that our method achieves significantly better results on a semantic segmentation task, compared to state-of-art fusion architectures, on a range of degradations (e.g. fog, snow, frost, and various other types of noise), some of which are unknown during training. We specifically improve upon the state-of-art[1] by 28% in mean IoU on various degradations. [1] Abhinav Valada, Rohit Mohan, and Wolfram Burgard. Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. In: arXiv e-prints, arXiv:1808.03833 (Aug. 2018), arXiv:1808.03833. arXiv: 1808.03833 [cs.CV].
updated: Wed Mar 04 2020 03:39:54 GMT+0000 (UTC)
published: Wed Nov 06 2019 09:42:04 GMT+0000 (UTC)
