Video Annotation for Visual Tracking via Selection and Refinement
ディープラーニングベースのビジュアルトラッカーは、達成するのに労力がかかる正確なバウンディングボックス注釈を使用して、大量のビデオデータセットでオフラインの事前トレーニングを必要とします。ビデオシーケンスのバウンディングボックスアノテーションを容易にする新しいフレームワークを提示します。これは、追跡アルゴリズムによって生成された予備アノテーションを自動的に改善するための選択と絞り込みの戦略を調査します。ターゲット位置の時間的コヒーレンスをキャプチャし、それらの品質を測定することによって信頼できる追跡結果を選択することができる時間的評価ネットワーク(T-Assess Net)が提案されています。一方、視覚的ジオメトリリファインメントネットワーク(VG-Refine Net)は、ターゲットの外観と時間的ジオメトリの制約の両方を考慮して、選択したトラッキング結果をさらに強化するように設計されており、不正確なトラッキング結果を修正できます。上記の2つのネットワークの組み合わせは、自動ビデオ注釈の品質を保証するための原則的なアプローチを提供します。大規模な追跡ベンチマークでの実験は、私たちの方法が非常に正確なバウンディングボックスの注釈を提供し、人的労力を94.0%大幅に削減し、拡張されたトレーニングデータで追跡パフォーマンスをさらに向上させる効果的な手段をもたらすことを示しています。
Deep learning based visual trackers entail offline pre-training on large volumes of video datasets with accurate bounding box annotations that are labor-expensive to achieve. We present a new framework to facilitate bounding box annotations for video sequences, which investigates a selection-and-refinement strategy to automatically improve the preliminary annotations generated by tracking algorithms. A temporal assessment network (T-Assess Net) is proposed which is able to capture the temporal coherence of target locations and select reliable tracking results by measuring their quality. Meanwhile, a visual-geometry refinement network (VG-Refine Net) is also designed to further enhance the selected tracking results by considering both target appearance and temporal geometry constraints, allowing inaccurate tracking results to be corrected. The combination of the above two networks provides a principled approach to ensure the quality of automatic video annotation. Experiments on large scale tracking benchmarks demonstrate that our method can deliver highly accurate bounding box annotations and significantly reduce human labor by 94.0%, yielding an effective means to further boost tracking performance with augmented training data.
updated: Mon Aug 09 2021 05:56:47 GMT+0000 (UTC)
published: Mon Aug 09 2021 05:56:47 GMT+0000 (UTC)
