クラスタリングと表現学習の組み合わせは、ディープニューラルネットワークの教師なし学習のための最も有望なアプローチの1つです。ただし、そのように単純に行うと、縮退したソリューションで学習の問題が発生します。この論文では、これらの問題に対処する斬新で原則に基づいた学習定式化を提案します。この方法は、ラベルと入力データのインデックス間の情報を最大化することにより取得されます。この基準は、標準のクロスエントロピー最小化を最適な輸送問題に拡張し、Sinkhorn-Knoppアルゴリズムの高速バリアントを使用して、数百万の入力画像と数千のラベルを効率的に解決することを示します。結果として得られる方法は、視覚的なデータに自己ラベル付けを行い、手作業によるラベル付けなしで非常に競争の激しい画像表現を訓練することができます。私たちの方法は、SVHN、CIFAR-10、CIFAR-100、ImageNetでAlexNetおよびResNet-50の最先端の表現学習パフォーマンスを達成し、教師ありPascal VOC検出ベースラインを上回る最初の自己監視型AlexNetを生成します。コードとモデルが利用可能です。
Combining clustering and representation learning is one of the most promising approaches for unsupervised learning of deep neural networks. However, doing so naively leads to ill posed learning problems with degenerate solutions. In this paper, we propose a novel and principled learning formulation that addresses these issues. The method is obtained by maximizing the information between labels and input data indices. We show that this criterion extends standard crossentropy minimization to an optimal transport problem, which we solve efficiently for millions of input images and thousands of labels using a fast variant of the Sinkhorn-Knopp algorithm. The resulting method is able to self-label visual data so as to train highly competitive image representations without manual labels. Our method achieves state of the art representation learning performance for AlexNet and ResNet-50 on SVHN, CIFAR-10, CIFAR-100 and ImageNet and yields the first self-supervised AlexNet that outperforms the supervised Pascal VOC detection baseline. Code and models are available.