SeqTrack: Sequence to Sequence Learning for Visual Object Tracking

Xin Chen; Houwen Peng; Dong Wang; Huchuan Lu; Han Hu

SeqTrack: 視覚オブジェクト追跡のためのシーケンスからシーケンスへの学習

この論文では、SeqTrack と呼ばれる視覚追跡用の新しいシーケンス間学習フレームワークを紹介します。ビジュアルトラッキングをシーケンス生成の問題としてキャストし、オブジェクトのバウンディングボックスを自己回帰的に予測します。これは、分類ヘッドや回帰ヘッドなどの複雑なヘッドネットワークの設計に依存する以前のシャムトラッカーやトランスフォーマートラッカーとは異なります。 SeqTrack は、単純なエンコーダー/デコーダー変換アーキテクチャのみを採用しています。エンコーダーは双方向トランスフォーマーを使用して視覚的特徴を抽出し、デコーダーは因果トランスフォーマーを使用して一連のバウンディングボックス値を自己回帰的に生成します。損失関数は単純なクロスエントロピーです。このようなシーケンス学習パラダイムは、追跡フレームワークを簡素化するだけでなく、ベンチマークで競争力のあるパフォーマンスを達成します。たとえば、SeqTrack は LaSOT で 72.5% の AUC を獲得し、新しい最先端のパフォーマンスを確立しています。コードとモデルはこちらから入手できます。

In this paper, we present a new sequence-to-sequence learning framework for visual tracking, dubbed SeqTrack. It casts visual tracking as a sequence generation problem, which predicts object bounding boxes in an autoregressive fashion. This is different from prior Siamese trackers and transformer trackers, which rely on designing complicated head networks, such as classification and regression heads. SeqTrack only adopts a simple encoder-decoder transformer architecture. The encoder extracts visual features with a bidirectional transformer, while the decoder generates a sequence of bounding box values autoregressively with a causal transformer. The loss function is a plain cross-entropy. Such a sequence learning paradigm not only simplifies tracking framework, but also achieves competitive performance on benchmarks. For instance, SeqTrack gets 72.5% AUC on LaSOT, establishing a new state-of-the-art performance. Code and models are available at here.

updated: Thu Aug 17 2023 07:32:54 GMT+0000 (UTC)

published: Thu Apr 27 2023 17:56:29 GMT+0000 (UTC)

arXiv

参考文献 (このサイトで利用可能なもの) / References (only if available on this site)

被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)

Amazon.co.jpアソシエイト