この作業では、相互のコンテキストを探索することにより、エゴセントリックなビデオにおける視線予測と行動認識の2つの結合されたタスクに対処します。私たちの仮定は、操作タスクを実行する手順で、人が何をしているかが人がどこを見ているかを決定し、注視点は、実行中のアクションに関する重要かつ補足的な情報を含む注視領域と非注視領域を明らかにするということです。エンドツーエンドの方法で共同行動依存視線予測と視線誘導行動認識を共同で学習する小説相互コンテキストネットワーク(MCN)を提案します。公共のエゴセントリックビデオデータセットの実験は、MCNが視線予測と行動認識の両方の最先端のパフォーマンスを達成することを示しています。
In this work, we address two coupled tasks of gaze prediction and action recognition in egocentric videos by exploring their mutual context. Our assumption is that in the procedure of performing a manipulation task, what a person is doing determines where the person is looking at, and the gaze point reveals gaze and non-gaze regions which contain important and complementary information about the undergoing action. We propose a novel mutual context network (MCN) that jointly learns action-dependent gaze prediction and gaze-guided action recognition in an end-to-end manner. Experiments on public egocentric video datasets demonstrate that our MCN achieves state-of-the-art performance of both gaze prediction and action recognition.