我々は、ビデオ シーケンス全体を通じてあらゆる物理的表面上のあらゆるクエリされたポイントを効果的に追跡する、Tracking Any Point (TAP) の新しいモデルを紹介します。私たちのアプローチは 2 つのステージを採用しています: (1) マッチング ステージ。クエリ ポイントに一致する適切な候補点を 1 フレームおきに個別に見つけます。(2) 改良ステージ。ローカル相関に基づいて軌跡とクエリ特徴の両方を更新します。 。結果として得られるモデルは、DAVIS における Jaccard (AJ) の絶対平均の約 20% の向上が示すように、TAP-Vid ベンチマークですべてのベースライン手法を大幅に上回っています。私たちのモデルは、長くて高解像度のビデオ シーケンスの高速推論を容易にします。最新の GPU では、私たちの実装はリアルタイムよりも速くポイントを追跡する能力を備えており、高解像度のビデオにも柔軟に拡張できます。大規模なデータセットから抽出された高品質の軌跡を考慮して、静止画像から軌跡を生成し、妥当なアニメーションを可能にする概念実証の拡散モデルを実証します。ビジュアライゼーション、ソース コード、および事前トレーニングされたモデルは、プロジェクトの Web ページで見つけることができます。
We present a novel model for Tracking Any Point (TAP) that effectively tracks any queried point on any physical surface throughout a video sequence. Our approach employs two stages: (1) a matching stage, which independently locates a suitable candidate point match for the query point on every other frame, and (2) a refinement stage, which updates both the trajectory and query features based on local correlations. The resulting model surpasses all baseline methods by a significant margin on the TAP-Vid benchmark, as demonstrated by an approximate 20% absolute average Jaccard (AJ) improvement on DAVIS. Our model facilitates fast inference on long and high-resolution video sequences. On a modern GPU, our implementation has the capacity to track points faster than real-time, and can be flexibly extended to higher-resolution videos. Given the high-quality trajectories extracted from a large dataset, we demonstrate a proof-of-concept diffusion model which generates trajectories from static images, enabling plausible animations. Visualizations, source code, and pretrained models can be found on our project webpage.