arXiv reaDer
テキストのWeb監視からビデオ表現を学ぶ
Learning Video Representations from Textual Web Supervision
インターネット上のビデオは、タイトルや説明などのテキストとペアになっています。このテキストは通常、シーン内のオブジェクトや実行されているアクションなど、ビデオの最も重要なコンテンツを説明します。この観察に基づいて、ビデオ表現を学習する方法としてテキストを使用することを提案します。これを実現するために、データ収集プロセスを提案し、それを使用してインターネット上で公開されている7000万のビデオクリップを収集し、モデルをトレーニングして各ビデオを関連するテキストとペアにします。 Kinetics、HMDB-51、UCF-101など、いくつかのダウンストリームアクション認識タスクでモデルを評価します。このアプローチは、ビデオ表現を事前トレーニングする効果的な方法であることがわかりました。具体的には、自己教師ありおよびクロスモーダルビデオ表現学習の既存のすべての方法よりも優れています。
Videos on the Internet are paired with pieces of text, such as titles and descriptions. This text typically describes the most important content in the video, such as the objects in the scene and the actions being performed. Based on this observation, we propose to use text as a method for learning video representations. To accomplish this, we propose a data collection process and use it to collect 70M video clips shared publicly on the Internet, and we then train a model to pair each video with its associated text. We evaluate the model on several down-stream action recognition tasks, including Kinetics, HMDB-51, and UCF-101. We find that this approach is an effective method of pre-training video representations. Specifically, it outperforms all existing methods for self-supervised and cross-modal video representation learning.
updated: Fri Aug 27 2021 18:03:37 GMT+0000 (UTC)
published: Wed Jul 29 2020 16:19:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト