arXiv reaDer
TransMOT: 複数物体追跡のための時空間グラフトランスフォーマー
TransMOT: Spatial-Temporal Graph Transformer for Multiple Object Tracking
動画中の複数の物体を追跡するには、物体の空間的・時間的な相互作用をモデル化する必要がある。本論文では、強力なグラフトランスフォーマーを利用して、オブジェクト間の空間的・時間的な相互作用を効率的にモデル化するTransMOTというソリューションを提案する。TransMOTは、追跡されたオブジェクトの軌跡を疎な重み付きグラフの集合として配置し、そのグラフに基づいて空間グラフトランスフォーマーエンコーダー層、時間グラフトランスフォーマーエンコーダー層、空間グラフトランスフォーマーデコーダー層を構築することで、多数のオブジェクトの相互作用を効果的にモデル化する。TransMOTは、従来のトランスフォーマーに比べて計算効率が高いだけでなく、より優れたトラッキング精度を実現する。さらに追跡速度と精度を向上させるために、TransMOTのモデル化に大きな計算資源を必要とする低スコアの検出や長期のオクルージョンを処理するためのカスケード連想フレームワークを提案する。提案手法を、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセットで評価したところ、すべてのデータセットで最先端の性能を達成することができた。
Tracking multiple objects in videos relies on modeling the spatial-temporal interactions of the objects. In this paper, we propose a solution named TransMOT, which leverages powerful graph transformers to efficiently model the spatial and temporal interactions among the objects. TransMOT effectively models the interactions of a large number of objects by arranging the trajectories of the tracked objects as a set of sparse weighted graphs, and constructing a spatial graph transformer encoder layer, a temporal transformer encoder layer, and a spatial graph transformer decoder layer based on the graphs. TransMOT is not only more computationally efficient than the traditional Transformer, but it also achieves better tracking accuracy. To further improve the tracking speed and accuracy, we propose a cascade association framework to handle low-score detections and long-term occlusions that require large computational resources to model in TransMOT. The proposed method is evaluated on multiple benchmark datasets including MOT15, MOT16, MOT17, and MOT20, and it achieves state-of-the-art performance on all the datasets.
updated: Sat Apr 03 2021 05:12:03 GMT+0000 (UTC)
published: Thu Apr 01 2021 01:49:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト