arXiv reaDer
追跡と画像ビデオ検出の統合モデルがさらに強力に
A Unified Model for Tracking and Image-Video Detection Has More Power
オブジェクト検出 (OD) は、コンピューター ビジョンにおける最も基本的なタスクの 1 つです。深層学習の最近の発展により、学習ベースのデータ駆動型アプローチにより、画像 OD のパフォーマンスが新たな高みに押し上げられました。一方、ビデオ OD は、主にはるかに高価なデータ注釈の必要性のために、あまり調査されていません。同時に、トラックのアイデンティティと時空間的な軌跡についての推論を必要とするマルチオブジェクト トラッキング (MOT) は、ビデオ OD と同様の精神を共有しています。ただし、ほとんどの MOT データセットはクラス固有 (たとえば、人物の注釈のみ) であるため、他のオブジェクトの追跡を実行するモデルの柔軟性が制限されます。画像 OD、ビデオ OD、および MOT を 1 つのエンドツーエンド モデルに統合する最初のフレームワークである TriIVD (追跡および画像ビデオ検出) を提案します。データセット間の不一致とセマンティック オーバーラップを処理するために、TrIVD は検出/追跡を根拠として定式化し、ビジュアル テキスト アラインメントを介してオブジェクト カテゴリに関する理由を定式化します。統一された定式化により、クロスデータセット、マルチタスクトレーニングが可能になり、フレームレベルの機能、ビデオレベルの時空間関係を活用し、ID 関連付けを追跡する機能を TriIVD に装備します。このような共同トレーニングにより、より豊富なオブジェクト カテゴリ アノテーションを備えた OD データの知識を MOT に拡張し、ゼロ ショット追跡機能を実現できるようになりました。実験は、TriIVD がすべての画像/ビデオ OD および MOT タスクで最先端のパフォーマンスを達成することを示しています。
Objection detection (OD) has been one of the most fundamental tasks in computer vision. Recent developments in deep learning have pushed the performance of image OD to new heights by learning-based, data-driven approaches. On the other hand, video OD remains less explored, mostly due to much more expensive data annotation needs. At the same time, multi-object tracking (MOT) which requires reasoning about track identities and spatio-temporal trajectories, shares similar spirits with video OD. However, most MOT datasets are class-specific (e.g., person-annotated only), which constrains a model's flexibility to perform tracking on other objects. We propose TrIVD (Tracking and Image-Video Detection), the first framework that unifies image OD, video OD, and MOT within one end-to-end model. To handle the discrepancies and semantic overlaps across datasets, TrIVD formulates detection/tracking as grounding and reasons about object categories via visual-text alignments. The unified formulation enables cross-dataset, multi-task training, and thus equips TrIVD with the ability to leverage frame-level features, video-level spatio-temporal relations, as well as track identity associations. With such joint training, we can now extend the knowledge from OD data, that comes with much richer object category annotations, to MOT and achieve zero-shot tracking capability. Experiments demonstrate that TrIVD achieves state-of-the-art performances across all image/video OD and MOT tasks.
updated: Sun Nov 20 2022 20:30:28 GMT+0000 (UTC)
published: Sun Nov 20 2022 20:30:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト