arXiv reaDer
教育ビデオとそのナレーションからの手順認識ビデオ表現の学習
Learning Procedure-aware Video Representation from Instructional Videos and Their Narrations
インターネット上の豊富な教育用ビデオとそのナレーションは、手続き型アクティビティを理解するための刺激的な方法を提供します。この作業では、人間の注釈を使用せずに、Web 教育ビデオとそのナレーションの大規模なデータセットに基づいて、アクション ステップとそれらの時間的順序の両方をエンコードするビデオ表現を学習することを提案します。私たちの方法は、個々のステップの概念をエンコードするためのビデオ表現と、ステップの順序付けにおける時間的な依存関係と巨大な個々の変動の両方をキャプチャするための深い確率モデルを共同で学習します。時間的順序付けを学習すると、手続き推論の新しい機能が可能になるだけでなく、個々のステップの認識が強化されることを経験的に示しています。私たちのモデルは、ステップ分類 (COIN / EPIC-Kitchens で +2.8% / +3.3%) とステップ予測 (COIN で +7.4%) の最先端の結果を大幅に改善します。さらに、私たちのモデルは、ステップの分類と予測のためのゼロショット推論、および不完全な手順の多様でもっともらしいステップの予測において有望な結果を達成します。コードは https://github.com/facebookresearch/ProcedureVRL で入手できます。
The abundance of instructional videos and their narrations over the Internet offers an exciting avenue for understanding procedural activities. In this work, we propose to learn video representation that encodes both action steps and their temporal ordering, based on a large-scale dataset of web instructional videos and their narrations, without using human annotations. Our method jointly learns a video representation to encode individual step concepts, and a deep probabilistic model to capture both temporal dependencies and immense individual variations in the step ordering. We empirically demonstrate that learning temporal ordering not only enables new capabilities for procedure reasoning, but also reinforces the recognition of individual steps. Our model significantly advances the state-of-the-art results on step classification (+2.8% / +3.3% on COIN / EPIC-Kitchens) and step forecasting (+7.4% on COIN). Moreover, our model attains promising results in zero-shot inference for step classification and forecasting, as well as in predicting diverse and plausible steps for incomplete procedures. Our code is available at https://github.com/facebookresearch/ProcedureVRL.
updated: Fri Mar 31 2023 07:02:26 GMT+0000 (UTC)
published: Fri Mar 31 2023 07:02:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト