arXiv reaDer
ラベルのないビデオからの自己教師あり学習のためのマルチモーダルクラスタリングネットワーク
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos
マルチモーダル自己教師あり学習は、人間の監督なしで大規模なネットワークをトレーニングできるだけでなく、さまざまなモダリティにわたるデータを検索および取得できるため、ますます注目を集めています。これに関連して、このペーパーでは、異なるモダリティ間で表現を共有することに加えて、意味的に類似したインスタンスのグループ化を実施する、共通のマルチモーダル埋め込みスペースを学習する自己教師ありトレーニングフレームワークを提案します。この目的のために、トレーニングパイプラインのマルチモーダルクラスタリングステップを使用してインスタンスレベルの対照学習の概念を拡張し、モダリティ間の意味的類似性をキャプチャします。結果として得られる埋め込みスペースにより、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたってサンプルを取得できます。私たちのアプローチを評価するために、HowTo100Mデータセットでモデルをトレーニングし、2つの挑戦的なドメイン、つまりテキストからビデオへの検索と時間的アクションのローカリゼーションでゼロショット検索機能を評価し、4つの最新の結果を示します。さまざまなデータセット。
Multimodal self-supervised learning is getting more and more attention as it allows not only to train large networks without human supervision but also to search and retrieve data across various modalities. In this context, this paper proposes a self-supervised training framework that learns a common multimodal embedding space that, in addition to sharing representations across different modalities, enforces a grouping of semantically similar instances. To this end, we extend the concept of instance-level contrastive learning with a multimodal clustering step in the training pipeline to capture semantic similarities across modalities. The resulting embedding space enables retrieval of samples across all modalities, even from unseen datasets and different domains. To evaluate our approach, we train our model on the HowTo100M dataset and evaluate its zero-shot retrieval capabilities in two challenging domains, namely text-to-video retrieval, and temporal action localization, showing state-of-the-art results on four different datasets.
updated: Mon Apr 26 2021 15:55:01 GMT+0000 (UTC)
published: Mon Apr 26 2021 15:55:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト