Knowledge Distillation for Human Action Anticipation
ビデオで人間の行動を予測するためにニューラルネットワークをトレーニングするタスクを検討します。ビデオデータの複雑さ、将来の確率的性質、および注釈付きトレーニングデータの量が限られていることを考えると、このタスクは困難です。本論文では、行動認識ネットワークを使用して行動予測ネットワークのトレーニングを監督し、将来の行動を正しく予測するために必要な関連情報に注意を向けるように導く、新しい知識蒸留フレームワークを提案します。このフレームワークは、動的ビデオのセマンティック概念の位置シフトを説明する新しい損失関数のおかげで可能になります。知識蒸留フレームワークは、自己教師あり学習の一形態であり、ラベルのないデータを利用します。 JHMDBおよびEPIC-KITCHENSデータセットの実験結果は、私たちのアプローチの有効性を示しています。
We consider the task of training a neural network to anticipate human actions in video. This task is challenging given the complexity of video data, the stochastic nature of the future, and the limited amount of annotated training data. In this paper, we propose a novel knowledge distillation framework that uses an action recognition network to supervise the training of an action anticipation network, guiding the latter to attend to the relevant information needed for correctly anticipating the future actions. This framework is possible thanks to a novel loss function to account for positional shifts of semantic concepts in a dynamic video. The knowledge distillation framework is a form of self-supervised learning, and it takes advantage of unlabeled data. Experimental results on JHMDB and EPIC-KITCHENS dataset show the effectiveness of our approach.
updated: Sun Oct 03 2021 13:05:42 GMT+0000 (UTC)
published: Tue Apr 09 2019 18:55:44 GMT+0000 (UTC)
