画像間の関係を確実に確立できる堅牢な表現を学習することは、実質的にすべてのコンピュータービジョンにとって最も重要です。トレーニング画像間のペアワイズ関係の二次数に注釈を付けることは、単に実行可能ではありませんが、教師なし推論はノイズの影響を受けやすいため、これらの関係の大部分は信頼できないままです。それでも、学習に確実に利用できる関係を見つけるために、分割統治戦略に従います:コンパクトな画像グループを抽出することで信頼できる類似性を見つけ、これらのグループをサブセットに分割することで信頼できる非類似性を見つけ、複雑な全体的な問題を少数に変換します信頼できるローカルの副問題。サブセットごとに、信頼できる関係が維持されるように、ターゲットの特徴空間へのマッピングを学習することで表現を取得します。次に、サブセット間の推移性関係を利用して、ローカルソリューションを統合されたグローバルな表現に統合します。グループ化、パーティショニング、学習を繰り返しながら、信頼性の高い関係を次々と使用して、画像表現を改善できます。実験では、このアプローチは、46.0%のImageNetでの教師なし分類に関する最先端のパフォーマンスを示し、PASCAL VOCのさまざまな転送学習タスクで有利に競合します。
Learning robust representations that allow to reliably establish relations between images is of paramount importance for virtually all of computer vision. Annotating the quadratic number of pairwise relations between training images is simply not feasible, while unsupervised inference is prone to noise, thus leaving the vast majority of these relations to be unreliable. To nevertheless find those relations which can be reliably utilized for learning, we follow a divide-and-conquer strategy: We find reliable similarities by extracting compact groups of images and reliable dissimilarities by partitioning these groups into subsets, converting the complicated overall problem into few reliable local subproblems. For each of the subsets we obtain a representation by learning a mapping to a target feature space so that their reliable relations are kept. Transitivity relations between the subsets are then exploited to consolidate the local solutions into a concerted global representation. While iterating between grouping, partitioning, and learning, we can successively use more and more reliable relations which, in turn, improves our image representation. In experiments, our approach shows state-of-the-art performance on unsupervised classification on ImageNet with 46.0% and competes favorably on different transfer learning tasks on PASCAL VOC.