一連の過去の観測から人間の動きを予測するという問題は、ロボット工学やコンピュータビジョンの多くのアプリケーションの中核です。現在の最新技術では、この問題をシーケンスからシーケンスへのタスクとして定式化しています。このタスクでは、3Dスケルトンの履歴が、通常1〜2秒のオーダーで将来の動きを予測するリカレントニューラルネットワーク(RNN)にフィードします。しかし、これまでに取り除かれた1つの側面は、人間の動きが環境内のオブジェクトや他の人間との相互作用によって本質的に駆動されるという事実です。このホワイトペーパーでは、新しい状況認識型のモーション予測アーキテクチャを使用して、このシナリオを探索します。ノードがシーン内の人間とオブジェクトをパラメーター化し、エッジが相互の相互作用をエッジ化するセマンティックグラフモデルを使用します。これらのインタラクションは、過去の観測に基づいてグラフアテンションレイヤーを通じて繰り返し学習されます。過去の観測には、オブジェクトと人体の両方の動きが含まれています。このセマンティックグラフが学習されたら、それを標準のRNNに注入して、人間とオブジェクトの将来の動きを予測します。アーキテクチャの2つのバリアントを検討します。どちらか一方を更新すると、コンテキストインタラクションが将来凍結されます。 「全身ヒューマンモーションデータベース」を徹底的に評価すると、どちらの場合も、コンテキスト認識ネットワークは、コンテキスト情報が考慮されていないベースラインを明らかに上回っています。
The problem of predicting human motion given a sequence of past observations is at the core of many applications in robotics and computer vision. Current state-of-the-art formulate this problem as a sequence-to-sequence task, in which a historical of 3D skeletons feeds a Recurrent Neural Network (RNN) that predicts future movements, typically in the order of 1 to 2 seconds. However, one aspect that has been obviated so far, is the fact that human motion is inherently driven by interactions with objects and/or other humans in the environment. In this paper, we explore this scenario using a novel context-aware motion prediction architecture. We use a semantic-graph model where the nodes parameterize the human and objects in the scene and the edges their mutual interactions. These interactions are iteratively learned through a graph attention layer, fed with the past observations, which now include both object and human body motions. Once this semantic graph is learned, we inject it to a standard RNN to predict future movements of the human/s and object/s. We consider two variants of our architecture, either freezing the contextual interactions in the future of updating them. A thorough evaluation in the "Whole-Body Human Motion Database" shows that in both cases, our context-aware networks clearly outperform baselines in which the context information is not considered.