arXiv reaDer
オーディオビジュアル表現学習のための大規模データセットの自動キュレーション
Automatic Curation of Large-Scale Datasets for Audio-Visual Representation Learning
大規模なデータセットは、表現学習の基礎です。既存の自己教師ありアプローチは、データについて特定の仮定を行うことによって学習信号を抽出します。たとえば、時空間連続性やマルチモーダル対応などです。ただし、そのような仮定を満たす大量のデータを見つけることは簡単ではなく、これにより、コミュニティは面倒な注釈や手動のフィルタリングプロセスを通じて収集されたデータセットに依存するように制限されます。この論文では、自動データセットキュレーションのためのサブセット最適化アプローチを提案します。視聴覚表現学習に焦点を当てると、ビデオの音声チャネルと視覚チャネルの間で最大の相互情報量を提供するサブセットが見つかります。データでトレーニングされた自己監視モデルは、自動的に構築されますが、注釈や手動フィルタリングを必要とする既存のデータセットと比較して、競争力のあるダウンストリームパフォーマンスを達成することを示します。私たちのアプローチの最も重要な利点はスケーラビリティです。視聴覚対応の高い1億本の動画のデータセットをリリースします。
Large-scale datasets are the cornerstone of representation learning. Existing self-supervised approaches extract learning signals by making certain assumptions about the data, e.g., spatio-temporal continuity and multimodal correspondence. However, finding large amounts of data that satisfy such assumptions is not straightforward, and this restricts the community to rely on datasets collected through laborious annotation and/or manual filtering processes. In this paper, we propose a subset optimization approach for automatic dataset curation. Focusing on audio-visual representation learning, we find a subset that provides the maximum mutual information between audio and visual channels in videos. We show that self-supervised models trained on our data, despite being automatically constructed, achieve competitive downstream performances compared to existing datasets that require annotation and/or manual filtering. The most significant benefit of our approach is scalability. We release a dataset of 100M videos with high audio-visual correspondence.
updated: Thu Jun 10 2021 13:19:45 GMT+0000 (UTC)
published: Tue Jan 26 2021 14:27:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト