屋内シーンでのモーションセグメンテーションのための最初のイベントベースの学習アプローチと、正確なピクセル単位のモーションマスク、エゴモーション、グラウンドトゥルースデプスを含む最初のイベントベースのデータセット-EV-IMOを紹介します。私たちのアプローチは、イベントデータに低パラメータニューラルネットワークアーキテクチャを使用したSfM学習パイプラインの効率的な実装に基づいています。カメラのエゴモーションと密な深度マップに加えて、ネットワークはピクセル単位で独立して移動するオブジェクトのセグメンテーションを推定し、移動するオブジェクトのオブジェクトごとの3D並進速度を計算します。また、深度とエゴモーションを計算できる、わずか40kのパラメーターで浅いネットワークをトレーニングします。 EV-IMOデータセットは、カメラの視野内で最大3つの高速移動オブジェクトを同時に使用した32分の屋内録画を特徴としています。オブジェクトとカメラは、VICONモーションキャプチャシステムによって追跡されます。部屋とオブジェクトを3Dスキャンすることで、正確なデプスマップグラウンドトゥルースとピクセル単位のオブジェクトマスクが得られます。これらは、照明条件が悪いときや速い動きのときでも信頼できます。次に、EV-IMOの学習パイプラインをトレーニングおよび評価し、このアプローチがライバルをはるかに上回り、シーンに制約のあるロボットアプリケーションに適していることを示します。
We present the first event-based learning approach for motion segmentation in indoor scenes and the first event-based dataset - EV-IMO - which includes accurate pixel-wise motion masks, egomotion and ground truth depth. Our approach is based on an efficient implementation of the SfM learning pipeline using a low parameter neural network architecture on event data. In addition to camera egomotion and a dense depth map, the network estimates pixel-wise independently moving object segmentation and computes per-object 3D translational velocities for moving objects. We also train a shallow network with just 40k parameters, which is able to compute depth and egomotion. Our EV-IMO dataset features 32 minutes of indoor recording with up to 3 fast moving objects simultaneously in the camera field of view. The objects and the camera are tracked by the VICON motion capture system. By 3D scanning the room and the objects, accurate depth map ground truth and pixel-wise object masks are obtained, which are reliable even in poor lighting conditions and during fast motion. We then train and evaluate our learning pipeline on EV-IMO and demonstrate that our approach far surpasses its rivals and is well suited for scene constrained robotics applications.