arXiv reaDer
パーティクルビデオの再検討:ポイント軌道を使用したオクルージョンによる追跡
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectories
ビデオ内のピクセルの追跡は、通常、オプティカルフロー推定の問題として研究されます。この問題では、すべてのピクセルが、次のフレームに配置される変位ベクトルで記述されます。より広い時間的コンテキストが自由に利用可能であるとしても、これを考慮に入れるための以前の努力は、2フレームの方法に比べてわずかな利益しかもたらしませんでした。この論文では、Sand and Tellerの「粒子ビデオ」アプローチを再検討し、ピクセル追跡を長距離モーションエスティメーション問題として研究します。この問題では、すべてのピクセルが複数の将来のフレームに配置される軌道で記述されます。高密度のコストマップ、反復的な最適化、学習した外観の更新など、現在の最先端のフローとオブジェクトトラッキングを推進するコンポーネントを使用して、この古典的なアプローチを再構築します。マルチフレームオクルージョンで合成的に増強する既存のオプティカルフローデータからマイニングされた長距離アモーダルポイント軌道を使用してモデルをトレーニングします。軌道推定ベンチマークとキーポイントラベル伝播タスクでアプローチをテストし、最先端のオプティカルフローおよび機能追跡方法と比較して有利です。
Tracking pixels in videos is typically studied as an optical flow estimation problem, where every pixel is described with a displacement vector that locates it in the next frame. Even though wider temporal context is freely available, prior efforts to take this into account have yielded only small gains over 2-frame methods. In this paper, we revisit Sand and Teller's "particle video" approach, and study pixel tracking as a long-range motion estimation problem, where every pixel is described with a trajectory that locates it in multiple future frames. We re-build this classic approach using components that drive the current state-of-the-art in flow and object tracking, such as dense cost maps, iterative optimization, and learned appearance updates. We train our models using long-range amodal point trajectories mined from existing optical flow data that we synthetically augment with multi-frame occlusions. We test our approach in trajectory estimation benchmarks and in keypoint label propagation tasks, and compare favorably against state-of-the-art optical flow and feature tracking methods.
updated: Mon Jul 25 2022 17:50:31 GMT+0000 (UTC)
published: Fri Apr 08 2022 16:05:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト