arXiv reaDer
TrackFormer:トランスフォーマーを使用したマルチオブジェクトトラッキング
TrackFormer: Multi-Object Tracking with Transformers
エンコーダーデコーダートランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルであるTrackFormerを紹介します。私たちのアプローチは、自己回帰方式でビデオシーケンスを介してオブジェクトを追跡するトラッククエリ埋め込みを導入します。新しいトラッククエリは、DETRオブジェクト検出器によって生成され、時間の経過とともに対応するオブジェクトの位置を埋め込みます。 Transformerデコーダーは、トラッククエリの埋め込みをフレームごとに調整し、それによってオブジェクトの位置の変化を追跡します。 TrackFormerは、位置、オクルージョン、およびオブジェクトIDについて同時に推論する自己およびエンコーダーデコーダーの注意メカニズムによって、新しい注意による追跡パラダイムでフレーム間のシームレスなデータ関連付けを実現します。 TrackFormerは、マルチオブジェクトトラッキング(MOT17)およびセグメンテーション(MOTS20)のタスクで最先端のパフォーマンスを実現します。検出と追跡を実行する統一された方法が、マルチオブジェクト追跡とビデオ理解の将来の研究を促進することを願っています。コードは公開されます。
We present TrackFormer, an end-to-end multi-object tracking and segmentation model based on an encoder-decoder Transformer architecture. Our approach introduces track query embeddings which follow objects through a video sequence in an autoregressive fashion. New track queries are spawned by the DETR object detector and embed the position of their corresponding object over time. The Transformer decoder adjusts track query embeddings from frame to frame, thereby following the changing object positions. TrackFormer achieves a seamless data association between frames in a new tracking-by-attention paradigm by self- and encoder-decoder attention mechanisms which simultaneously reason about location, occlusion, and object identity. TrackFormer yields state-of-the-art performance on the tasks of multi-object tracking (MOT17) and segmentation (MOTS20). We hope our unified way of performing detection and tracking will foster future research in multi-object tracking and video understanding. Code will be made publicly available.
updated: Thu Jan 07 2021 18:59:29 GMT+0000 (UTC)
published: Thu Jan 07 2021 18:59:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト