arXiv reaDer
1メガピクセルのイベントカメラでオブジェクトを検出する方法を学ぶ
Learning to Detect Objects with a 1 Megapixel Event Camera
イベントカメラは、高い時間精度、低いデータレート、および高いダイナミックレンジで視覚情報をエンコードします。これらの特性のおかげで、イベントカメラは、動きが大きく、照明条件が厳しく、待ち時間が短いシナリオに特に適しています。ただし、この分野の目新しさのために、多くのビジョンタスクでのイベントベースのシステムのパフォーマンスは、従来のフレームベースのソリューションと比較してまだ低くなっています。このパフォーマンスギャップの主な理由は次のとおりです。フレームカメラと比較して、イベントセンサーの空間分解能が低い。大規模なトレーニングデータセットの欠如。イベントベースの処理のための十分に確立されたディープラーニングアーキテクチャがない。このホワイトペーパーでは、イベントベースのオブジェクト検出タスクのコンテキストでこれらすべての問題に対処します。まず、オブジェクト検出用の最初の高解像度大規模データセットを公開します。データセットには、自動車のシナリオでの1メガピクセルのイベントカメラの14時間以上の記録と、高周波でラベル付けされた車、歩行者、二輪車の2500万個のバウンディングボックスが含まれています。次に、イベントベースの検出のための新しい反復アーキテクチャと、より適切に動作するトレーニングのための一時的な一貫性の喪失を紹介します。イベントのシーケンスをモデルの内部メモリにコンパクトに表現する機能は、高精度を実現するために不可欠です。私たちのモデルは、フィードフォワードイベントベースのアーキテクチャを大幅に上回っています。さらに、私たちの方法は、イベントからの強度画像の再構成を必要とせず、生のイベントから直接トレーニングすることが可能であり、より効率的で、中間強度画像を通過するよりも正確であることを示しています。イベントとグレーレベル画像が利用可能な、この作業で導入されたデータセットの実験は、高度に調整および研究されたフレームベースの検出器と同等のパフォーマンスを示しています。
Event cameras encode visual information with high temporal precision, low data-rate, and high-dynamic range. Thanks to these characteristics, event cameras are particularly suited for scenarios with high motion, challenging lighting conditions and requiring low latency. However, due to the novelty of the field, the performance of event-based systems on many vision tasks is still lower compared to conventional frame-based solutions. The main reasons for this performance gap are: the lower spatial resolution of event sensors, compared to frame cameras; the lack of large-scale training datasets; the absence of well established deep learning architectures for event-based processing. In this paper, we address all these problems in the context of an event-based object detection task. First, we publicly release the first high-resolution large-scale dataset for object detection. The dataset contains more than 14 hours recordings of a 1 megapixel event camera, in automotive scenarios, together with 25M bounding boxes of cars, pedestrians, and two-wheelers, labeled at high frequency. Second, we introduce a novel recurrent architecture for event-based detection and a temporal consistency loss for better-behaved training. The ability to compactly represent the sequence of events into the internal memory of the model is essential to achieve high accuracy. Our model outperforms by a large margin feed-forward event-based architectures. Moreover, our method does not require any reconstruction of intensity images from events, showing that training directly from raw events is possible, more efficient, and more accurate than passing through an intermediate intensity image. Experiments on the dataset introduced in this work, for which events and gray level images are available, show performance on par with that of highly tuned and studied frame-based detectors.
updated: Wed Dec 09 2020 15:41:24 GMT+0000 (UTC)
published: Mon Sep 28 2020 16:03:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト