新しいイベントカメラデータセットであるEVIMO2が導入されました。これは、より複雑なシナリオで、より優れたカメラからより多くのデータを提供することにより、人気のあるEVIMOデータセットを改善します。前任者と同様に、EVIMO2は、ピクセルごとのグラウンドトゥルース深度とセグメンテーション、およびカメラとオブジェクトのポーズの形式でラベルを提供します。すべてのシーケンスは物理カメラからのデータを使用し、多くのシーケンスは複数の独立して動くオブジェクトを特徴としています。通常、このようなラベル付きデータは、物理イベントカメラデータセットでは使用できません。したがって、EVIMO2は、既存のアルゴリズムの挑戦的なベンチマークと、新しいアルゴリズムの開発のための豊富なトレーニングセットとして機能します。特に、EVIMO2は、単眼またはステレオ構成の両方で、モーションとオブジェクトのセグメンテーション、オプティカルフロー、モーションからの構造、および視覚(慣性)オドメトリの研究をサポートするのに適しています。 EVIMO2は、3台の640×480イベントカメラ、1台の2080×1552クラシックカラーカメラ、2台の6軸慣性測定ユニットからの慣性測定、およびViconモーションキャプチャシステムからのミリメートル精度のオブジェクトポーズからの41分のデータで構成されています。データセットの173のシーケンスは、3つのカテゴリに分類されます。 3.75分の独立して移動する家財道具、22.55分の静的シーン、および14.85分の浅いシーンでの基本的な動き。一部のシーケンスは、従来のカメラが故障する暗い場所で記録されました。深度とセグメンテーションは、イベントカメラの場合は60 Hz、クラシックカメラの場合は30Hzで提供されます。マスクは、最大200Hzのレートのオープンソースコードを使用して再生成できます。このテクニカルレポートでは、EVIMO2について簡単に説明します。完全なドキュメントはオンラインで入手できます。個々のシーケンスのビデオは、ダウンロードページでサンプリングできます。
A new event camera dataset, EVIMO2, is introduced that improves on the popular EVIMO dataset by providing more data, from better cameras, in more complex scenarios. As with its predecessor, EVIMO2 provides labels in the form of per-pixel ground truth depth and segmentation as well as camera and object poses. All sequences use data from physical cameras and many sequences feature multiple independently moving objects. Typically, such labeled data is unavailable in physical event camera datasets. Thus, EVIMO2 will serve as a challenging benchmark for existing algorithms and rich training set for the development of new algorithms. In particular, EVIMO2 is suited for supporting research in motion and object segmentation, optical flow, structure from motion, and visual (inertial) odometry in both monocular or stereo configurations. EVIMO2 consists of 41 minutes of data from three 640×480 event cameras, one 2080×1552 classical color camera, inertial measurements from two six axis inertial measurement units, and millimeter accurate object poses from a Vicon motion capture system. The dataset's 173 sequences are arranged into three categories. 3.75 minutes of independently moving household objects, 22.55 minutes of static scenes, and 14.85 minutes of basic motions in shallow scenes. Some sequences were recorded in low-light conditions where conventional cameras fail. Depth and segmentation are provided at 60 Hz for the event cameras and 30 Hz for the classical camera. The masks can be regenerated using open-source code up to rates as high as 200 Hz. This technical report briefly describes EVIMO2. The full documentation is available online. Videos of individual sequences can be sampled on the download page.