arXiv reaDer
イベント カメラを使用したオブジェクト検出のためのリカレント ビジョン トランスフォーマー
Recurrent Vision Transformers for Object Detection with Event Cameras
イベント カメラによる物体検出の新しいバックボーンである Recurrent Vision Transformers (RVT) を紹介します。イベント カメラは、高ダイナミック レンジでサブミリ秒の遅延とモーション ブラーに対する強力な堅牢性を備えた視覚情報を提供します。これらの独自のプロパティは、タイム クリティカルなシナリオでの低レイテンシのオブジェクト検出と追跡に大きな可能性をもたらします。イベントベースのビジョンにおける以前の研究では、優れた検出性能が達成されましたが、通常は 40 ミリ秒を超えるかなりの推論時間が犠牲になりました。リカレント ビジョン バックボーンの高レベル設計を再検討することで、同様のパフォーマンスを維持しながら、推論時間を 5 分の 1 に短縮します。これを実現するために、各段階で 3 つの重要な概念を利用する多段階設計を検討します。まず、条件付き位置埋め込みと見なすことができる畳み込み事前確率。第二に、空間的特徴の相互作用に対する局所的および拡張された全体的な自己注意。第 3 に、一時的な情報を保持しながらレイテンシを最小限に抑えるために、反復的な一時的な特徴の集約を行います。 RVT をゼロからトレーニングして、イベントベースのオブジェクト検出で最先端のパフォーマンスを実現できます。Gen1 自動車データセットで 47.5% の mAP を達成します。同時に、RVT は高速な推論 (T4 GPU で 13 ミリ秒) と良好なパラメーター効率 (従来技術の 5 分の 1) を提供します。私たちの研究は、イベントベースのビジョンを超えた研究に実りある効果的なデザインの選択に新しい洞察をもたらします。
We present Recurrent Vision Transformers (RVTs), a novel backbone for object detection with event cameras. Event cameras provide visual information with sub-millisecond latency at a high-dynamic range and with strong robustness against motion blur. These unique properties offer great potential for low-latency object detection and tracking in time-critical scenarios. Prior work in event-based vision has achieved outstanding detection performance but at the cost of substantial inference time, typically beyond 40 milliseconds. By revisiting the high-level design of recurrent vision backbones, we reduce inference time by a factor of 5 while retaining similar performance. To achieve this, we explore a multi-stage design that utilizes three key concepts in each stage: First, a convolutional prior that can be regarded as a conditional positional embedding. Second, local- and dilated global self-attention for spatial feature interaction. Third, recurrent temporal feature aggregation to minimize latency while retaining temporal information. RVTs can be trained from scratch to reach state-of-the-art performance on event-based object detection - achieving an mAP of 47.5% on the Gen1 automotive dataset. At the same time, RVTs offer fast inference (13 ms on a T4 GPU) and favorable parameter efficiency (5 times fewer than prior art). Our study brings new insights into effective design choices that could be fruitful for research beyond event-based vision.
updated: Sun Dec 11 2022 20:28:59 GMT+0000 (UTC)
published: Sun Dec 11 2022 20:28:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト