入力された人間のビデオから将来の人間の行動を予測することは、自動運転やロボット工学などのアプリケーションにとって有用なタスクです。以前のほとんどの作品は単一の未来を予測していますが、異なる行動を伴う複数の未来が潜在的に発生する可能性があります。さらに、予測される未来が短すぎる場合(1秒未満など)、人間や他のシステムでは完全に使用できない場合があります。本論文では、複数の長期的な将来を予測できる将来の人間の姿勢予測のための新しい方法を提案する。これにより、予測は実際のアプリケーションにより適したものになります。また、入力ビデオと予測された人間の行動から、将来のビデオを生成します。まず、入力された人間のビデオから、敵の学習を介して将来の人間のポーズのシーケンス(つまり、体の関節の画像座標)を生成します。敵対者の学習はモード崩壊に苦しみ、さまざまな複数のポーズを生成するのが難しくなります。ジェネレーターへの2つの追加入力を使用して出力を多様化することで、この問題を解決します。つまり、潜在コード(さまざまな動作を反映する)と引力点(さまざまな軌道を反映する)です。さらに、一次元の畳み込みニューラルネットワークに基づく新しいアプローチを使用して、長期的な将来の人間のポーズを生成します。最後に、視覚化のために生成されたポーズに基づいて出力ビデオを生成します。生成された将来のポーズとビデオを3つの基準(つまり、リアリズム、多様性、精度)を使用して評価し、提案された方法が他の最先端の作品よりも優れていることを示します。
Predicting future human behavior from an input human video is a useful task for applications such as autonomous driving and robotics. While most previous works predict a single future, multiple futures with different behavior can potentially occur. Moreover, if the predicted future is too short (e.g., less than one second), it may not be fully usable by a human or other systems. In this paper, we propose a novel method for future human pose prediction capable of predicting multiple long-term futures. This makes the predictions more suitable for real applications. Also, from the input video and the predicted human behavior, we generate future videos. First, from an input human video, we generate sequences of future human poses (i.e., the image coordinates of their body-joints) via adversarial learning. Adversarial learning suffers from mode collapse, which makes it difficult to generate a variety of multiple poses. We solve this problem by utilizing two additional inputs to the generator to make the outputs diverse, namely, a latent code (to reflect various behaviors) and an attraction point (to reflect various trajectories). In addition, we generate long-term future human poses using a novel approach based on unidimensional convolutional neural networks. Last, we generate an output video based on the generated poses for visualization. We evaluate the generated future poses and videos using three criteria (i.e., realism, diversity and accuracy), and show that our proposed method outperforms other state-of-the-art works.