arXiv reaDer
あまりにも多くのテレビを見るのは良いことです:映画やテレビ番組から学ぶ自己監視型視聴覚表現
Watching Too Much Television is Good: Self-Supervised Audio-Visual Representation Learning from Movies and TV Shows
音の豊富さと使いやすさ、そして聴覚の手がかりがシーンで何が起こっているかについて多くを明らかにするという事実とともに、視聴覚空間は自己教師あり表現学習のための完全に直感的な選択になります。ただし、現在の文献では、キュレートされていないデータのトレーニングでは、教師ありの方法で収集されたキュレートされた代替データと比較して、表現がかなり劣り、データの量が大幅に増加した場合にのみギャップが狭くなることが示唆されています。さらに、学習された表現の品質は、自己教師ありトレーニングに使用されるキュレートされたデータセットのサイズと分類法に大きく影響されることが知られています。これは、私たちの自己監視の取り組みが依然としてほとんど専らキュレーションされたデータに依存しているのに、教師あり学習に追いつくのが早すぎるのではないかという疑問を投げかけます。この論文では、視聴覚自己教師あり学習のためのキュレーションされていないデータの形式として、映画やテレビ番組から学習することの有効性を研究します。映画やテレビ番組のコレクションでトレーニングされた対照的な学習に基づく単純なモデルは、桁違いに大きい未キュレートのデータセットでトレーニングされたより複雑な方法よりも劇的に優れているだけでなく、状態と非常に競争力があることを示します。大規模なキュレートされたデータから学習するアート。主人公の登場や著名なシーン、映画の全期間を通じて頻繁に発生するmise-en-sc \ `eneのような視聴覚パターンは、対照的な学習の定式化において、簡単なネガティブなインスタンスの過剰につながることを識別します。このような観察結果を利用して、階層的サンプリングポリシーを提案します。これは、その単純さにもかかわらず、特にセマンティックの多様性が少ないテレビ番組から学習する場合に、パフォーマンスを効果的に向上させます。
The abundance and ease of utilizing sound, along with the fact that auditory clues reveal so much about what happens in the scene, make the audio-visual space a perfectly intuitive choice for self-supervised representation learning. However, the current literature suggests that training on uncurated data yields considerably poorer representations compared to the curated alternatives collected in supervised manner, and the gap only narrows when the volume of data significantly increases. Furthermore, the quality of learned representations is known to be heavily influenced by the size and taxonomy of the curated datasets used for self-supervised training. This begs the question of whether we are celebrating too early on catching up with supervised learning when our self-supervised efforts still rely almost exclusively on curated data. In this paper, we study the efficacy of learning from Movies and TV Shows as forms of uncurated data for audio-visual self-supervised learning. We demonstrate that a simple model based on contrastive learning, trained on a collection of movies and TV shows, not only dramatically outperforms more complex methods which are trained on orders of magnitude larger uncurated datasets, but also performs very competitively with the state-of-the-art that learns from large-scale curated data. We identify that audiovisual patterns like the appearance of the main character or prominent scenes and mise-en-sc\`ene which frequently occur through the whole duration of a movie, lead to an overabundance of easy negative instances in the contrastive learning formulation. Capitalizing on such observation, we propose a hierarchical sampling policy, which despite its simplicity, effectively improves the performance, particularly when learning from TV shows which naturally face less semantic diversity.
updated: Wed Jun 16 2021 02:00:11 GMT+0000 (UTC)
published: Wed Jun 16 2021 02:00:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト