arXiv reaDer
Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos
ナレーション付きのインタラクションをビデオで空間的にローカライズするタスクを紹介します。私たちのアプローチの鍵は、転写されたナレーションを伴うビデオの大規模なコーパスで、自己監視との相互作用を空間的にローカライズすることを学ぶ能力です。この目標を達成するために、トレーニング中の対照的な損失の効果的な最適化を可能にする多層クロスモーダル注意ネットワークを提案します。視覚言語と自然言語のモダリティ全体でモーダル間注意とモーダル内注意の計算を交互に行う分割戦略を紹介します。これにより、2つのモダリティの表現を直接対比することで効果的なトレーニングが可能になります。 HowTo100M教育ビデオデータセットで自己トレーニングし、YouCook2データセットでローカライズされた記述された相互作用の新しく収集されたデータセットで評価することにより、アプローチの有効性を示します。私たちのアプローチは、浅い共同注意や完全なクロスモーダル注意など、代替のベースラインよりも優れていることを示しています。また、Flickr30Kの監視が弱い画像のフレーズを接地するアプローチを適用し、複数の注意レイヤーを積み重ねることが効果的であり、単語から領域への損失と組み合わせると、1回のリコールとポインティングで最先端を達成することを示します手の精度。
We introduce the task of spatially localizing narrated interactions in videos. Key to our approach is the ability to learn to spatially localize interactions with self-supervision on a large corpus of videos with accompanying transcribed narrations. To achieve this goal, we propose a multilayer cross-modal attention network that enables effective optimization of a contrastive loss during training. We introduce a divided strategy that alternates between computing inter- and intra-modal attention across the visual and natural language modalities, which allows effective training via directly contrasting the two modalities' representations. We demonstrate the effectiveness of our approach by self-training on the HowTo100M instructional video dataset and evaluating on a newly collected dataset of localized described interactions in the YouCook2 dataset. We show that our approach outperforms alternative baselines, including shallow co-attention and full cross-modal attention. We also apply our approach to grounding phrases in images with weak supervision on Flickr30K and show that stacking multiple attention layers is effective and, when combined with a word-to-region loss, achieves state of the art on recall-at-one and pointing hand accuracies.
updated: Wed Oct 20 2021 14:45:13 GMT+0000 (UTC)
published: Wed Oct 20 2021 14:45:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト