Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning
  この論文は、人間の社会的相互作用を研究するために重要な原子レベルとイベントレベルの両方からソーシャルビデオにおける人間の視線のコミュニケーションを理解するという新しい問題に対処します。この斬新で挑戦的な問題に取り組むために、大規模なビデオデータセットであるVACATIONを提供します。VACATIONは、さまざまな日常のソーシャルシーンをカバーし、オブジェクトと人間の顔、人間の注意、コミュニケーション構造とラベルの両方の完全な注釈でコミュニケーション行動を注視します。レベルとイベントレベル。 VACATIONと一緒に、時空間グラフニューラルネットワークを提案して、ソーシャルシーンにおける多様な視線の相互作用を明示的に表現し、メッセージの受け渡しによって原子レベルの視線通信を推測します。さらに、イベントレベルの視線通信を予測するエンコーダーデコーダー構造を備えたイベントネットワークを提案します。私たちの実験は、提案されたモデルが原子レベルおよびイベントレベルの視線を予測する際にさまざまなベースラインを大幅に改善することを示しています
This paper addresses a new problem of understanding human gaze communication in social videos from both atomic-level and event-level, which is significant for studying human social interactions. To tackle this novel and challenging problem, we contribute a large-scale video dataset, VACATION, which covers diverse daily social scenes and gaze communication behaviors with complete annotations of objects and human faces, human attention, and communication structures and labels in both atomic-level and event-level. Together with VACATION, we propose a spatio-temporal graph neural network to explicitly represent the diverse gaze interactions in the social scenes and to infer atomic-level gaze communication by message passing. We further propose an event network with encoder-decoder structure to predict the event-level gaze communication. Our experiments demonstrate that the proposed model improves various baselines significantly in predicting the atomic-level and event-level gaze
updated: Wed Sep 04 2019 22:50:33 GMT+0000 (UTC)
published: Wed Sep 04 2019 22:50:33 GMT+0000 (UTC)
