arXiv reaDer
EgoTracks: 長期的な自己中心的な視覚オブジェクト追跡データセット
EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset
視覚オブジェクトの追跡は、多くの自己中心的な視覚の問題の重要な要素です。ただし、具現化された AI が直面する自己中心的な追跡の全範囲の課題は、多くの既存のデータセットでは過小評価されています。これらは、比較的短い第三者のビデオに焦点を当てる傾向があります。自己中心的なビデオには、過去のデータセットで一般的に見られたものとは異なる特徴がいくつかあります。頻繁な大きなカメラの動きやオブジェクトとの手の相互作用は、通常、オクルージョンまたはフレームからのオブジェクトの終了につながります。オブジェクトの外観は、視点、スケール、またはオブジェクトの状態。具現化された追跡も当然長期的であり、生涯にわたってオブジェクトをその出現と消失に一貫して(再)関連付けできることが重要です。以前のデータセットは、この再検出の問題を過小評価しており、その「フレーム化された」性質により、自己中心的なビデオに必ずしも一般化されていないことがわかっているさまざまな時空間事前分布が採用されています。したがって、長期的な自己中心的な視覚オブジェクト追跡のための新しいデータセットである EgoTracks を紹介します。 Ego4D データセットをソースとするこの新しいデータセットは、最近の最先端の単一オブジェクト追跡モデルに重大な課題を提示します。これは、新しいデータセットの従来の追跡メトリクスでは、一般的なベンチマークと比較してスコアが低いことがわかります。さらに、自己中心的なデータのパフォーマンスを大幅に向上させるために STARK トラッカーに加えることができる改善を示し、その結果、EgoSTARK と呼ばれるベースライン モデルが得られます。データセットが追跡のさらなる進歩につながることを期待して、注釈とベンチマークを公開します。
Visual object tracking is a key component to many egocentric vision problems. However, the full spectrum of challenges of egocentric tracking faced by an embodied AI is underrepresented in many existing datasets; these tend to focus on relatively short, third-person videos. Egocentric video has several distinguishing characteristics from those commonly found in past datasets: frequent large camera motions and hand interactions with objects commonly lead to occlusions or objects exiting the frame, and object appearance can change rapidly due to widely different points of view, scale, or object states. Embodied tracking is also naturally long-term, and being able to consistently (re-)associate objects to their appearances and disappearances over as long as a lifetime is critical. Previous datasets under-emphasize this re-detection problem, and their "framed" nature has led to adoption of various spatiotemporal priors that we find do not necessarily generalize to egocentric video. We thus introduce EgoTracks, a new dataset for long-term egocentric visual object tracking. Sourced from the Ego4D dataset, this new dataset presents a significant challenge to recent state-of-the-art single-object tracking models, which we find score poorly on traditional tracking metrics for our new dataset, compared to popular benchmarks. We further show improvements that can be made to a STARK tracker to significantly increase its performance on egocentric data, resulting in a baseline model we call EgoSTARK. We publicly release our annotations and benchmark, hoping our dataset leads to further advancements in tracking.
updated: Tue Mar 14 2023 18:48:15 GMT+0000 (UTC)
published: Mon Jan 09 2023 09:10:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト