arXiv reaDer
What You Say Is What You Show: 教育ビデオにおける視覚ナレーション検出
What You Say Is What You Show: Visual Narration Detection in Instructional Videos
ナレーション付きの「ハウツー」ビデオは、視覚的表現の学習からロボット ポリシーのトレーニングまで、幅広い学習問題の有望なデータ ソースとして浮上しています。ただし、ナレーションがビデオで実演されたアクションを常に説明しているわけではないため、このデータは非常にノイズが多いです。この問題に対処するために、視覚的なナレーション検出という新しいタスクを導入します。これには、ビデオ内のアクションによってナレーションが視覚的に描写されているかどうかを判断することが含まれます。 「What You Say is What You Show」(WYS^2) を提案します。これは、マルチモーダル キューと疑似ラベリングを活用して、弱くラベル付けされたデータのみを使用して視覚的なナレーションを検出することを学習する方法です。オーディオ入力のみを操作するアプローチをさらに一般化し、ナレーターの声の特性を学習して、ナレーターが説明したことを現在行っているかどうかを示唆します。私たちのモデルは、実在するビデオの視覚的なナレーションをうまく検出し、強力なベースラインよりも優れており、教育ビデオの最先端の要約と調整に対するその影響を示しています。
Narrated "how-to" videos have emerged as a promising data source for a wide range of learning problems, from learning visual representations to training robot policies. However, this data is extremely noisy, as the narrations do not always describe the actions demonstrated in the video. To address this problem we introduce the novel task of visual narration detection, which entails determining whether a narration is visually depicted by the actions in the video. We propose "What You Say is What You Show" (WYS^2), a method that leverages multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data. We further generalize our approach to operate on only audio input, learning properties of the narrator's voice that hint if they are currently doing what they describe. Our model successfully detects visual narrations in in-the-wild videos, outperforming strong baselines, and we demonstrate its impact for state-of-the-art summarization and alignment of instructional video.
updated: Thu Jan 05 2023 21:43:19 GMT+0000 (UTC)
published: Thu Jan 05 2023 21:43:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト