arXiv reaDer
3Dマップでの自己中心的な活動の認識とローカリゼーション
Egocentric Activity Recognition and Localization on a 3D Map
一人称視点でキャプチャされ、慣れ親しんだ環境で記録されたビデオを考えると、その人が何をしているかを認識し、3D空間のどこでアクションが発生するかを特定できますか?自己中心的なビデオから既知の3Dマップ上でモバイルユーザーのアクションを共同で認識してローカライズするというこの困難な問題に対処します。この目的のために、我々は新しい深い確率モデルを提案します。私たちのモデルは、環境の階層的体積表現(HVR)と自己中心的なビデオの入力を受け取り、3Dアクションの場所を潜在変数として推測し、ビデオとその潜在的な場所を取り巻くコンテキストキューに基づいてアクションを認識します。モデルを評価するために、新しく収集された自己中心的なビデオデータセットで広範な実験を行います。このデータセットでは、人間の自然な行動と写実的な3D環境の再構築の両方がキャプチャされます。私たちの方法は、見えている環境と見えていない環境にわたるアクション認識と3Dアクションローカリゼーションの両方で強力な結果を示しています。私たちの仕事は、エゴセントリックなビジョンと3Dシーンの理解の交差点における刺激的な研究の方向性を示していると信じています。
Given a video captured from a first person perspective and recorded in a familiar environment, can we recognize what the person is doing and identify where the action occurs in the 3D space? We address this challenging problem of jointly recognizing and localizing actions of a mobile user on a known 3D map from egocentric videos. To this end, we propose a novel deep probabilistic model. Our model takes the inputs of a Hierarchical Volumetric Representation (HVR) of the environment and an egocentric video, infers the 3D action location as a latent variable, and recognizes the action based on the video and contextual cues surrounding its potential locations. To evaluate our model, we conduct extensive experiments on a newly collected egocentric video dataset, in which both human naturalistic actions and photo-realistic 3D environment reconstructions are captured. Our method demonstrates strong results on both action recognition and 3D action localization across seen and unseen environments. We believe our work points to an exciting research direction in the intersection of egocentric vision, and 3D scene understanding.
updated: Thu May 20 2021 06:58:15 GMT+0000 (UTC)
published: Thu May 20 2021 06:58:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト