物体検出は、動的で変化する環境で動作する自律型ロボットにとって不可欠なタスクです。ロボットは、カメラの照明条件の変更やレンジセンサー、特にRGB-Dカメラの誤った深度の読み取りによって引き起こされる可能性のあるセンサーノイズの存在下でオブジェクトを検出できる必要があります。これらの課題に取り組むために、さまざまなセンサーモダリティの予測にオンラインで重み付けを学習するオブジェクト検出のための新しい適応型融合アプローチを提案します。私たちのアプローチは、畳み込みニューラルネットワーク(CNN)の専門家の混合に基づいており、外観、深さ、動きを含む複数のモダリティを組み込んでいます。 RGB-Dデータから屋内と屋外を組み合わせたシナリオで人を検出する広範なロボット実験でメソッドをテストし、厳しい照明の変化と激しいカメラのモーションブラーに適応できることを示します。さらに、移動ロボットで記録された屋内と屋外が混在する環境での人物検出用の新しいRGB-Dデータセットを提示します。コード、事前学習済みのモデル、およびデータセットは、http://adaptivefusion.cs.uni-freiburg.deで入手できます。
Object detection is an essential task for autonomous robots operating in dynamic and changing environments. A robot should be able to detect objects in the presence of sensor noise that can be induced by changing lighting conditions for cameras and false depth readings for range sensors, especially RGB-D cameras. To tackle these challenges, we propose a novel adaptive fusion approach for object detection that learns weighting the predictions of different sensor modalities in an online manner. Our approach is based on a mixture of convolutional neural network (CNN) experts and incorporates multiple modalities including appearance, depth and motion. We test our method in extensive robot experiments, in which we detect people in a combined indoor and outdoor scenario from RGB-D data, and we demonstrate that our method can adapt to harsh lighting changes and severe camera motion blur. Furthermore, we present a new RGB-D dataset for people detection in mixed in- and outdoor environments, recorded with a mobile robot. Code, pretrained models and dataset are available at http://adaptivefusion.cs.uni-freiburg.de