arXiv reaDer
マルチモーダル自己監視を使用して、ラベルなしの動画に最初からラベルを付ける
Labelling unlabelled videos from scratch with multi-modal self-supervision
ディープラーニングの現在の成功の大部分は、データの有効性にあります。より正確には、ラベル付きデータです。ただし、データセットに人間による注釈を付けると、特に動画の場合は、引き続き高コストになります。画像ドメインでは、最近の方法により、監督なしでラベルなしのデータセットに意味のある(疑似)ラベルを生成できましたが、機能の表現の学習が現在の焦点となっているビデオドメインでは、この開発が欠落しています。この作業では、a)ビデオデータセットの教師なしラベリングが強力な機能エンコーダーから解放されないことを示し、b)自然なデータを活用して、人間の注釈なしにビデオデータセットの疑似ラベリングを可能にする新しいクラスタリング手法を提案します。音声と視覚のモダリティ間の対応。広範な分析により、結果として得られるクラスターには、人間のラベルを裏付ける真の意味論的重複が高いことが示されています。さらに、一般的なビデオデータセットKinetics、Kinetics-Sound、VGG-Sound、AVEの教師なしラベル付けに関する最初のベンチマーク結果を紹介します。
A large part of the current success of deep learning lies in the effectiveness of data -- more precisely: labelled data. Yet, labelling a dataset with human annotation continues to carry high costs, especially for videos. While in the image domain, recent methods have allowed to generate meaningful (pseudo-) labels for unlabelled datasets without supervision, this development is missing for the video domain where learning feature representations is the current focus. In this work, we a) show that unsupervised labelling of a video dataset does not come for free from strong feature encoders and b) propose a novel clustering method that allows pseudo-labelling of a video dataset without any human annotations, by leveraging the natural correspondence between the audio and visual modalities. An extensive analysis shows that the resulting clusters have high semantic overlap to ground truth human labels. We further introduce the first benchmarking results on unsupervised labelling of common video datasets Kinetics, Kinetics-Sound, VGG-Sound and AVE.
updated: Sun Feb 28 2021 14:45:24 GMT+0000 (UTC)
published: Wed Jun 24 2020 12:28:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト