Ego4D: Around the World in 3,000 Hours of Egocentric Video
大規模な自己中心的なビデオデータセットおよびベンチマークスイートであるEgo4Dを紹介します。世界74か国9か国の855人のユニークなカメラ着用者が撮影した数百のシナリオ(家庭、屋外、職場、レジャーなど)にまたがる3,025時間の日常生活活動ビデオを提供します。収集へのアプローチは、同意した参加者と、必要に応じて堅牢な匿名化手順を使用して、厳格なプライバシーと倫理の基準を維持するように設計されています。 Ego4Dは、研究コミュニティに公開されている多様な自己中心的なビデオ映像の量を劇的に拡大します。ビデオの一部には、オーディオ、環境の3Dメッシュ、視線、ステレオ、および/または同じイベントでの複数の自己中心的なカメラからの同期ビデオが付属しています。さらに、過去(エピソード記憶の照会)、現在(手オブジェクト操作、視聴覚会話、および社会的相互作用の分析)、および将来(社会的相互作用の分析)の一人称視覚体験の理解を中心とした多数の新しいベンチマーク課題を提示します。予測活動)。この大規模な注釈付きデータセットとベンチマークスイートを公に共有することで、私たちは一人称認識のフロンティアを推進することを目指しています。プロジェクトページ:
We introduce Ego4D, a massive-scale egocentric video dataset and benchmark suite. It offers 3,025 hours of daily-life activity video spanning hundreds of scenarios (household, outdoor, workplace, leisure, etc.) captured by 855 unique camera wearers from 74 worldwide locations and 9 different countries. The approach to collection is designed to uphold rigorous privacy and ethics standards with consenting participants and robust de-identification procedures where relevant. Ego4D dramatically expands the volume of diverse egocentric video footage publicly available to the research community. Portions of the video are accompanied by audio, 3D meshes of the environment, eye gaze, stereo, and/or synchronized videos from multiple egocentric cameras at the same event. Furthermore, we present a host of new benchmark challenges centered around understanding the first-person visual experience in the past (querying an episodic memory), present (analyzing hand-object manipulation, audio-visual conversation, and social interactions), and future (forecasting activities). By publicly sharing this massive annotated dataset and benchmark suite, we aim to push the frontier of first-person perception. Project page:
updated: Wed Oct 13 2021 22:19:32 GMT+0000 (UTC)
published: Wed Oct 13 2021 22:19:32 GMT+0000 (UTC)
