人間の活動分析に関する既存の研究のほとんどは、完全または部分的な観察からの活動ラベルの認識または早期認識に焦点を合わせています。同様に、既存のビデオキャプションアプローチのほとんどすべては、ビデオで観察されたイベントに焦点を合わせています。予測されたアクティビティのフレームが観察されていない将来のアクティビティのラベルとキャプションを予測することは困難な問題であり、重要なアプリケーションでは予測的な応答が必要です。この作品では、将来の一連の活動のラベルとキャプションを推測できるシステムを提案します。将来のアクティビティシーケンスのラベル予測のために提案されたネットワークには3つのブランチがあり、最初のブランチはシーンに存在するオブジェクトから視覚的特徴を取得し、2番目のブランチは観測された順次アクティビティフィーチャを取得し、3番目のブランチは最後に観測されたアクティビティフィーチャをキャプチャします。次に、予測されたラベルと観察されたシーンコンテキストは、シーケンス間の学習ベースの方法を使用して、意味のあるキャプションにマッピングされます。 4つの挑戦的な活動分析データセットとビデオ記述データセットでの実験は、私たちのラベル予測アプローチが最先端と同等のパフォーマンスを達成し、キャプションフレームワークが最先端を上回っていることを示しています。
Most of the existing works on human activity analysis focus on recognition or early recognition of the activity labels from complete or partial observations. Similarly, almost all of the existing video captioning approaches focus on the observed events in videos. Predicting the labels and the captions of future activities where no frames of the predicted activities have been observed is a challenging problem, with important applications that require anticipatory response. In this work, we propose a system that can infer the labels and the captions of a sequence of future activities. Our proposed network for label prediction of a future activity sequence has three branches where the first branch takes visual features from the objects present in the scene, the second branch takes observed sequential activity features, and the third branch captures the last observed activity features. The predicted labels and the observed scene context are then mapped to meaningful captions using a sequence-to-sequence learning-based method. Experiments on four challenging activity analysis datasets and a video description dataset demonstrate that our label prediction approach achieves comparable performance with the state-of-the-arts and our captioning framework outperform the state-of-the-arts.