ビデオ内のピクセルの追跡は、通常、オプティカルフロー推定の問題として研究されます。この問題では、すべてのピクセルが、次のフレームに配置される変位ベクトルで記述されます。より広い時間的コンテキストが自由に利用可能であるとしても、これを考慮に入れるための以前の努力は、2フレームの方法に比べてわずかな利益しかもたらしませんでした。この論文では、Sand and Tellerの「粒子ビデオ」アプローチを再検討し、ピクセルトラッキングを長距離モーションエスティメーション問題として研究します。この問題では、すべてのピクセルが複数の将来のフレームに配置される軌道で記述されます。高密度のコストマップ、反復的な最適化、学習した外観の更新など、現在の最先端のフローとオブジェクトトラッキングを推進するコンポーネントを使用して、この古典的なアプローチを再構築します。閉塞で総合的に増強する既存のオプティカルフローデータセットからマイニングされた長距離アモーダルポイント軌道を使用してモデルをトレーニングします。軌道推定ベンチマークとキーポイントラベル伝播タスクでアプローチをテストし、最先端のオプティカルフローおよび機能追跡方法と比較して有利です。
Tracking pixels in videos is typically studied as an optical flow estimation problem, where every pixel is described with a displacement vector that locates it in the next frame. Even though wider temporal context is freely available, prior efforts to take this into account have yielded only small gains over 2-frame methods. In this paper, we revisit Sand and Teller's "particle video" approach, and study pixel tracking as a long-range motion estimation problem, where every pixel is described with a trajectory that locates it in multiple future frames. We re-build this classic approach using components that drive the current state-of-the-art in flow and object tracking, such as dense cost maps, iterative optimization, and learned appearance updates. We train our models using long-range amodal point trajectories mined from existing optical flow datasets that we synthetically augment with occlusions. We test our approach in trajectory estimation benchmarks and in keypoint label propagation tasks, and compare favorably against state-of-the-art optical flow and feature tracking methods.