arXiv reaDer
カラー イベント ベースのトラッキングの再検討: 統合されたネットワーク、データセット、メトリック
Revisiting Color-Event based Tracking: A Unified Network, Dataset, and Metric
カラー カメラとイベント カメラ (ダイナミック ビジョン センサー、DVS とも呼ばれます) を組み合わせて堅牢なオブジェクト トラッキングを行うことは、近年新たに浮上した研究テーマです。既存の色イベント追跡フレームワークには通常、複数の散在するモジュールが含まれており、特徴抽出、融合、マッチング、インタラクティブな学習などを含む、効率が低く計算が複雑になる可能性があります。上記の機能を同時に実現する Event Unified Tracking (CEUTrack)。イベント ポイントと RGB フレームが与えられると、まずポイントをボクセルに変換し、テンプレートをトリミングして、両方のモダリティの領域をそれぞれ検索します。次に、これらのリージョンはトークンに投影され、統合された Transformer バックボーン ネットワークに並行して供給されます。出力フィーチャは、ターゲット オブジェクトのローカリゼーションのためにトラッキング ヘッドに供給されます。私たちが提案する CEUTrack は、75 FPS 以上と新しい SOTA パフォーマンスを実現する、シンプルで効果的かつ効率的なものです。モデルの有効性をより適切に検証し、このタスクのデータ不足に対処するために、COESOT と呼ばれる、90 のカテゴリと 1354 のビデオ シーケンスを含む、カラー イベント追跡用の一般的で大規模なベンチマーク データセットも提案します。さらに、BOC という名前の新しい評価指標が評価ツールキットで提案されており、ベースライン メソッドに関するプロミネンスを評価します。新しく提案された方法、データセット、および評価指標が、色イベントベースの追跡のためのより良いプラットフォームを提供することを願っています.データセット、ツールキット、およびソース コードは、https://github.com/Event-AHU/COESOT でリリースされます。
Combining the Color and Event cameras (also called Dynamic Vision Sensors, DVS) for robust object tracking is a newly emerging research topic in recent years. Existing color-event tracking framework usually contains multiple scattered modules which may lead to low efficiency and high computational complexity, including feature extraction, fusion, matching, interactive learning, etc. In this paper, we propose a single-stage backbone network for Color-Event Unified Tracking (CEUTrack), which achieves the above functions simultaneously. Given the event points and RGB frames, we first transform the points into voxels and crop the template and search regions for both modalities, respectively. Then, these regions are projected into tokens and parallelly fed into the unified Transformer backbone network. The output features will be fed into a tracking head for target object localization. Our proposed CEUTrack is simple, effective, and efficient, which achieves over 75 FPS and new SOTA performance. To better validate the effectiveness of our model and address the data deficiency of this task, we also propose a generic and large-scale benchmark dataset for color-event tracking, termed COESOT, which contains 90 categories and 1354 video sequences. Additionally, a new evaluation metric named BOC is proposed in our evaluation toolkit to evaluate the prominence with respect to the baseline methods. We hope the newly proposed method, dataset, and evaluation metric provide a better platform for color-event-based tracking. The dataset, toolkit, and source code will be released on: https://github.com/Event-AHU/COESOT.
updated: Sun Nov 20 2022 16:01:31 GMT+0000 (UTC)
published: Sun Nov 20 2022 16:01:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト