ディープラーニングは、さまざまな問題で目覚ましい進歩を見せています。ただし、そのようなモデルの効率的なトレーニングには大規模なデータセットが必要であり、そのようなデータセットの注釈を取得することは困難でコストがかかる可能性があります。この作業では、ビデオを理解するために、Webビデオからユーザーが自由に利用できるラベルを使用する方法を探ります。ユーザーが生成したアノテーションやその他のメタ情報が関連付けられた約200万本の動画で構成されるベンチマークデータセットを作成します。収集したデータセットをアクション分類に利用し、既存の小規模な注釈付きデータセットであるUCF101およびHMDB51を使用してその有用性を示します。さまざまな損失関数と2つの事前トレーニング戦略、単純な自己教師あり学習を研究します。また、提案されたデータセットで事前トレーニングされたネットワークが、ダウンストリームデータセットのビデオ破損やラベルノイズに対してどのように役立つかを示します。これを、ビデオを理解するためのノイズの多い学習のベンチマークデータセットとして提示します。データセット、コード、およびトレーニング済みモデルは、将来の研究のために公開されます。
Deep learning has shown remarkable progress in a wide range of problems. However, efficient training of such models requires large-scale datasets, and getting annotations for such datasets can be challenging and costly. In this work, we explore the use of user-generated freely available labels from web videos for video understanding. We create a benchmark dataset consisting of around 2 million videos with associated user-generated annotations and other meta information. We utilize the collected dataset for action classification and demonstrate its usefulness with existing small-scale annotated datasets, UCF101 and HMDB51. We study different loss functions and two pretraining strategies, simple and self-supervised learning. We also show how a network pretrained on the proposed dataset can help against video corruption and label noise in downstream datasets. We present this as a benchmark dataset in noisy learning for video understanding. The dataset, code, and trained models will be publicly available for future research.