人間の視覚システムの中心的な性質により、人々は一度に視野の小さな領域に視覚的注意を集中させることができます。一人称(エゴセントリック)ビデオでこの注目オブジェクトを推定することは、拡張現実アプリケーションやドライバー支援システムなど、多くの人間中心の現実世界のアプリケーションに役立ちます。この問題の簡単な解決策は、視界がバウンディングボックスに当たるオブジェクトを選択することです。視線ポイントの推定は従来の視線推定器から得られ、オブジェクト候補は既製のオブジェクト検出器から生成されます。ただし、これらのアプローチは、鶏と卵の関連性が高いにもかかわらず、どこでどのような問題に個別に対処するため、失敗する可能性があります。この論文では、ファーストパーソンビデオの参加オブジェクトを特定および特定する際に、空間的および時間的証拠の両方を取り入れた新しい統一モデルを提案します。場所と内容の概念の一貫性を強化し活用する新しい自己検証モジュールを導入します。 2つのパブリックデータセットで評価し、自己検証モジュールがトレーニングとテストの両方に大きなメリットをもたらし、モデルが最先端のパフォーマンスを上回ることを実証します。
Due to the foveated nature of the human vision system, people can focus their visual attention on a small region of their visual field at a time, which usually contains only a single object. Estimating this object of attention in first-person (egocentric) videos is useful for many human-centered real-world applications such as augmented reality applications and driver assistance systems. A straightforward solution for this problem is to pick the object whose bounding box is hit by the gaze, where eye gaze point estimation is obtained from a traditional eye gaze estimator and object candidates are generated from an off-the-shelf object detector. However, such an approach can fail because it addresses the where and the what problems separately, despite that they are highly related, chicken-and-egg problems. In this paper, we propose a novel unified model that incorporates both spatial and temporal evidence in identifying as well as locating the attended object in firstperson videos. It introduces a novel Self Validation Module that enforces and leverages consistency of the where and the what concepts. We evaluate on two public datasets, demonstrating that Self Validation Module significantly benefits both training and testing and that our model outperforms the state-of-the-art.