高次元データのコンパクトな埋め込みを教師なしで学習する教師なし表現学習 (URL) は、最近目覚ましい進歩を遂げています。 URL の最終的な目標はさまざまなシナリオで似ていますが、関連するアルゴリズムは、特定の URL タスクまたはデータに従って個別に設計されているため、タスクごとに大きく異なります。たとえば、次元削減手法である t-SNE および UMAP は、グローバルな幾何学的構造を維持することによってペアワイズ データ関係を最適化しますが、自己教師あり学習、SimCLR、および BYOL は、特定の拡張下でのインスタンスのローカル統計のマイニングに焦点を当てています。一般的な観点から、さまざまな URL タスクにスムーズかつ効率的に適応できる、統一された類似性ベースの URL フレームワーク GenURL をまとめて提案します。多様な仮定に基づいて、URL タスクを、データの幾何学的構造または高次元データの最適な低次元表現を探すのに役立つコンテンツに対するさまざまな暗黙の制約と見なします。したがって、この方法には、タスクに依存しない URL 表現を学習するための 2 つの重要なステップがあります。(1) データ構造モデリングと (2) 低次元変換です。具体的には、(1) 事前定義されたグラフまたは構築されたグラフを使用してデータ構造を適応的にモデル化するためのシンプルで効果的なグラフベースのサブモジュールを提供します。データ固有の口実タスクに基づいて、(2) コンパクトな低次元埋め込みを学習します。さらに、(1) と (2) は正常に接続され、新しい目的関数を通じて相互に利益をもたらします。私たちの包括的な実験は、GenURL が自己教師あり視覚表現学習、教師なし知識蒸留、グラフ埋め込み、および次元削減において一貫した最先端のパフォーマンスを達成することを示しています。
Unsupervised representation learning (URL) that learns compact embeddings of high-dimensional data without supervision has achieved remarkable progress recently. Although the ultimate goal of URLs is similar across various scenarios, the related algorithms differ widely in different tasks because they were separately designed according to a specific URL task or data. For example, dimension reduction methods, t-SNE, and UMAP, optimize pair-wise data relationships by preserving the global geometric structure, while self-supervised learning, SimCLR, and BYOL, focus on mining the local statistics of instances under specific augmentations. From a general perspective, we summarize and propose a unified similarity-based URL framework, GenURL, which can adapt to various URL tasks smoothly and efficiently. Based on the manifold assumption, we regard URL tasks as different implicit constraints on the data geometric structure or content that help to seek an optimal low-dimensional representation for the high-dimensional data. Therefore, our method has two key steps to learning task-agnostic representation in URL: (1) data structural modeling and (2) low-dimensional transformation. Specifically, (1) provides a simple yet effective graph-based submodule to model data structures adaptively with predefined or constructed graphs; and based on data-specific pretext tasks, (2) learns compact low-dimensional embeddings. Moreover, (1) and (2) are successfully connected and benefit mutually through our novel objective function. Our comprehensive experiments demonstrate that GenURL achieves consistent state-of-the-art performance in self-supervised visual representation learning, unsupervised knowledge distillation, graph embeddings, and dimension reduction.