将来の人間の行動を自動的に推論することは困難な問題ですが、支援システムへの実用的なアプリケーションがかなりあります。この問題の一部は、学習システムがあらゆる種類の行動を表現できないことに起因しています。モーションなどの一部の動作は連続表現で最もよく説明されますが、カップを拾うなど他の動作は離散表現で最もよく説明されます。さらに、人間の行動は一般に固定されていません。人々は自分の習慣や習慣を変えることができます。これは、これらのシステムが継続的に学習して適応できる必要があることを示唆しています。この作業では、効率的なディープジェネレーティブモデルを開発して、人の将来の個別のアクションと連続的な動きを共同で予測します。大規模な自己中心的なデータセットであるEPIC-KITCHENSで、関連する生成モデルよりも優れた一般化を示しながら、高品質で多様なサンプルを生成する方法を観察します。最後に、ストリーミングデータからモデルを継続的に学習し、その実際的な有効性を観察し、学習効率を理論的に正当化するためのバリアントを提案します。
Automatically reasoning about future human behaviors is a difficult problem but has significant practical applications to assistive systems. Part of this difficulty stems from learning systems' inability to represent all kinds of behaviors. Some behaviors, such as motion, are best described with continuous representations, whereas others, such as picking up a cup, are best described with discrete representations. Furthermore, human behavior is generally not fixed: people can change their habits and routines. This suggests these systems must be able to learn and adapt continuously. In this work, we develop an efficient deep generative model to jointly forecast a person's future discrete actions and continuous motions. On a large-scale egocentric dataset, EPIC-KITCHENS, we observe our method generates high-quality and diverse samples while exhibiting better generalization than related generative models. Finally, we propose a variant to continually learn our model from streaming data, observe its practical effectiveness, and theoretically justify its learning efficiency.