このペーパーでは、機械翻訳モデルを使用して、ビデオから人間のアクションシーケンスを分類します。一連のアクションを出力する古典的な人間のアクション分類とは対照的に、我々の方法は、人間が実行したアクションの時系列で一連のアクションを出力します。したがって、この方法は、バイリンガル評価アンダースタディ(BLEU)スコアなどの連続的なパフォーマンス測定を使用して評価されます。アクションシーケンスの分類には、デモンストレーション、アクションセグメンテーション、検出、ローカリゼーション、ビデオキャプションからの学習など、多くのアプリケーションがあります。さらに、下流のタスクを解決するアクションシーケンスを出力するようにトレーニングされたモデルを使用します。動画のキャプションやアクションのローカライズなど。 34.8のBLEU-4スコアおよび33.6のMETEORスコアをそれぞれ18.8および19.5のパフォーマンスを上回る、挑戦的なCharadesデータセットでのビデオキャプションの最新の結果を取得します。同様に、ActivityNetキャプションでは、ROUGE(20.24)およびCIDER(37.58)スコアの面で優れた結果が得られます。アクションのローカライズでは、明示的な開始/終了アクションアノテーションを使用せずに、このメソッドは、事前に完全に監視されたメソッドを上回る22.2 mAPのローカリゼーションパフォーマンスを取得します。
This paper classifies human action sequences from videos using a machine translation model. In contrast to classical human action classification which outputs a set of actions, our method output a sequence of action in the chronological order of the actions performed by the human. Therefore our method is evaluated using sequential performance measures such as Bilingual Evaluation Understudy (BLEU) scores. Action sequence classification has many applications such as learning from demonstration, action segmentation, detection, localization and video captioning. Furthermore, we use our model that is trained to output action sequences to solve downstream tasks; such as video captioning and action localization. We obtain state of the art results for video captioning in challenging Charades dataset obtaining BLEU-4 score of 34.8 and METEOR score of 33.6 outperforming previous state-of-the-art of 18.8 and 19.5 respectively. Similarly, on ActivityNet captioning, we obtain excellent results in-terms of ROUGE (20.24) and CIDER (37.58) scores. For action localization, without using any explicit start/end action annotations, our method obtains localization performance of 22.2 mAP outperforming prior fully supervised methods.