arXiv reaDer
構成的対照学習による視聴覚知識の抽出
Distilling Audio-Visual Knowledge by Compositional Contrastive Learning
マルチモーダルキュー(ビジョンやオーディオなど)にアクセスできることで、単一のモダリティから学習する場合に比べて、一部の認知タスクをより速く実行できるようになります。この作業では、これらのデータモダリティが意味的に相関していない場合でも、異種モダリティ間で知識を転送することを提案します。さまざまなモダリティの表現を直接調整するのではなく、モダリティ全体でオーディオ、画像、およびビデオの表現を作成して、より豊富なマルチモーダル知識を明らかにします。私たちの主なアイデアは、クロスモーダルセマンティックギャップを埋め、タスク関連のセマンティクスをキャプチャする構成埋め込みを学習することです。これにより、構成対照学習によってモダリティ全体の表現をまとめることが容易になります。 UCF101、ActivityNet、VGGSoundの3つのビデオデータセットで、新しい包括的なマルチモーダル蒸留ベンチマークを確立します。さらに、私たちのモデルは、ビデオ表現学習を改善するために視聴覚知識を転送する際に、さまざまな既存の知識蒸留方法を大幅に上回っていることを示しています。コードはここでリリースされます:https://github.com/yanbeic/CCL。
Having access to multi-modal cues (e.g. vision and audio) empowers some cognitive tasks to be done faster compared to learning from a single modality. In this work, we propose to transfer knowledge across heterogeneous modalities, even though these data modalities may not be semantically correlated. Rather than directly aligning the representations of different modalities, we compose audio, image, and video representations across modalities to uncover richer multi-modal knowledge. Our main idea is to learn a compositional embedding that closes the cross-modal semantic gap and captures the task-relevant semantics, which facilitates pulling together representations across modalities by compositional contrastive learning. We establish a new, comprehensive multi-modal distillation benchmark on three video datasets: UCF101, ActivityNet, and VGGSound. Moreover, we demonstrate that our model significantly outperforms a variety of existing knowledge distillation methods in transferring audio-visual knowledge to improve video representation learning. Code is released here: https://github.com/yanbeic/CCL.
updated: Thu Apr 22 2021 09:31:20 GMT+0000 (UTC)
published: Thu Apr 22 2021 09:31:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト