arXiv reaDer
想像力によって自己中心的な行動を予測することを学ぶ
Learning to Anticipate Egocentric Actions by Imagination
自動運転やロボット工学など、幅広い実用的なアプリケーションでは、実行前にアクションを予測することが重要です。この論文では、自己中心的なビデオに対して実行される数秒前に将来の行動を予測する、自己中心的な行動予測タスクを研究します。以前のアプローチは、観察された内容を要約し、過去の観察に基づいて将来の行動を直接予測することに焦点を当てています。観測されていないフレームの欠落している情報を補うためにいくつかの手がかりをマイニングできれば、アクションの予測に役立つと信じています。次に、アクションの予測を一連の将来の機能予測に分解することを提案します。近い将来、視覚的特徴がどのように変化するかを想像し、これらの想像された表現に基づいて将来のアクションラベルを予測します。これとは異なり、ImagineRNNは、特徴回帰ではなく、対照的な学習方法で最適化されています。プロキシタスクを利用して、ImagineRNNをトレーニングします。つまり、気を散らすものから正しい将来の状態を選択します。 ImagineRNNは、残差予測、つまり、フレームコンテンツではなく、隣接するフレームの特徴の違いを予測するようにターゲットを変更することで、さらに改善されます。これにより、隣接するフレームフィーチャ間の違いが将来を予測するためにより重要になるため、ネットワークがターゲット、つまり将来のアクションに集中できるようになります。 2つの大規模な自己中心的行動データセットに関する広範な実験により、私たちの方法の有効性が検証されます。私たちの方法は、EPICキッチンアクション予測チャレンジの表示されたテストセットと表示されていないテストセットの両方で、以前の方法を大幅に上回っています。
Anticipating actions before they are executed is crucial for a wide range of practical applications, including autonomous driving and robotics. In this paper, we study the egocentric action anticipation task, which predicts future action seconds before it is performed for egocentric videos. Previous approaches focus on summarizing the observed content and directly predicting future action based on past observations. We believe it would benefit the action anticipation if we could mine some cues to compensate for the missing information of the unobserved frames. We then propose to decompose the action anticipation into a series of future feature predictions. We imagine how the visual feature changes in the near future and then predicts future action labels based on these imagined representations. Differently, our ImagineRNN is optimized in a contrastive learning way instead of feature regression. We utilize a proxy task to train the ImagineRNN, i.e., selecting the correct future states from distractors. We further improve ImagineRNN by residual anticipation, i.e., changing its target to predicting the feature difference of adjacent frames instead of the frame content. This promotes the network to focus on our target, i.e., the future action, as the difference between adjacent frame features is more important for forecasting the future. Extensive experiments on two large-scale egocentric action datasets validate the effectiveness of our method. Our method significantly outperforms previous methods on both the seen test set and the unseen test set of the EPIC Kitchens Action Anticipation Challenge.
updated: Tue Jan 19 2021 11:02:10 GMT+0000 (UTC)
published: Wed Jan 13 2021 08:04:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト