arXiv reaDer
シングルモーダルおよびマルチモーダルデータでの共同表現学習と新しいカテゴリの発見
Joint Representation Learning and Novel Category Discovery on Single- and Multi-modal Data
この論文は、異なるが関連するカテゴリーからのラベルを用いたシングルモーダルおよびマルチモーダルデータでの新しいカテゴリー発見の問題を研究します。信頼できる表現を共同で学習し、ラベルのないデータにクラスターを割り当てるための、一般的なエンドツーエンドのフレームワークを紹介します。学習した埋め込みをラベル付きデータに過剰適合させないようにするために、ノイズ対照推定による自己教師あり表現学習からインスピレーションを得て、ラベル付きデータとラベルなしデータを共同で処理するように拡張します。特に、ラベル付きデータのカテゴリ識別とマルチモーダルデータのクロスモーダル識別を使用して、従来の対照学習アプローチで使用されるインスタンス識別を強化することを提案します。さらに、共有表現空間でWinner-Take-All(WTA)ハッシュアルゴリズムを使用して、ラベルなしデータのペアワイズ疑似ラベルを生成し、クラスターの割り当てをより適切に予測します。大規模なマルチモーダルビデオベンチマークKinetics-400とVGG-Sound、および画像ベンチマークCIFAR10、CIFAR100、ImageNetでフレームワークを徹底的に評価し、最先端の結果を取得します。
This paper studies the problem of novel category discovery on single- and multi-modal data with labels from different but relevant categories. We present a generic, end-to-end framework to jointly learn a reliable representation and assign clusters to unlabelled data. To avoid over-fitting the learnt embedding to labelled data, we take inspiration from self-supervised representation learning by noise-contrastive estimation and extend it to jointly handle labelled and unlabelled data. In particular, we propose using category discrimination on labelled data and cross-modal discrimination on multi-modal data to augment instance discrimination used in conventional contrastive learning approaches. We further employ Winner-Take-All (WTA) hashing algorithm on the shared representation space to generate pairwise pseudo labels for unlabelled data to better predict cluster assignments. We thoroughly evaluate our framework on large-scale multi-modal video benchmarks Kinetics-400 and VGG-Sound, and image benchmarks CIFAR10, CIFAR100 and ImageNet, obtaining state-of-the-art results.
updated: Thu Oct 14 2021 22:43:27 GMT+0000 (UTC)
published: Mon Apr 26 2021 15:56:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト