arXiv reaDer
Spatially Aware Transformer による効率的な関節検出と複数オブジェクトの追跡
Efficient Joint Detection and Multiple Object Tracking with Spatially Aware Transformer
完全なトランスフォーマー アーキテクチャを使用したマルチオブジェクト トラッキングのタスクに対して、軽量で高効率のジョイント検出およびトラッキング パイプラインを提案します。これは、TransTrack の修正版であり、設計に伴う計算上のボトルネックを克服すると同時に、73.20% という最先端の MOTA スコアを達成しています。モデル設計は、CNN の代わりにトランスフォーマー ベースのバックボーンによって駆動されます。これは、入力解像度で非常にスケーラブルです。また、バタフライ変換操作を使用してチャネル融合と深さ方向の畳み込みを実行し、特徴マップ内の空間コンテキストを学習することにより、トランスフォーマー エンコーダー レイヤーのフィード フォワード ネットワークのドロップイン置換を提案します。変更の結果、TransTrack の全体的なモデル サイズが 58.73% 削減され、複雑さが 78.72% 削減されました。したがって、私たちの設計は、マルチオブジェクト追跡に関連する将来の研究におけるアーキテクチャ最適化のための新しい視点を提供することを期待しています.
We propose a light-weight and highly efficient Joint Detection and Tracking pipeline for the task of Multi-Object Tracking using a fully-transformer architecture. It is a modified version of TransTrack, which overcomes the computational bottleneck associated with its design, and at the same time, achieves state-of-the-art MOTA score of 73.20%. The model design is driven by a transformer based backbone instead of CNN, which is highly scalable with the input resolution. We also propose a drop-in replacement for Feed Forward Network of transformer encoder layer, by using Butterfly Transform Operation to perform channel fusion and depth-wise convolution to learn spatial context within the feature maps, otherwise missing within the attention maps of the transformer. As a result of our modifications, we reduce the overall model size of TransTrack by 58.73% and the complexity by 78.72%. Therefore, we expect our design to provide novel perspectives for architecture optimization in future research related to multi-object tracking.
updated: Wed Nov 09 2022 07:19:33 GMT+0000 (UTC)
published: Wed Nov 09 2022 07:19:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト