監視なしで画像の密な意味表現を学習できることは、コンピュータビジョンの重要な問題です。ただし、その重要性にもかかわらず、この問題は、狭い視覚領域を持つ小規模データセットでの教師なしセマンティックセグメンテーションを考慮したいくつかの例外を除いて、かなり未踏のままです。このホワイトペーパーでは、監視対象のケースで従来から使用されてきたデータセットの問題に取り組む最初の試みを行います。これを達成するために、ピクセルの埋め込みを学習するための対照的な最適化の目的で、事前に決定された中間レベルの事前設定を採用する2段階のフレームワークを導入します。これは、プロキシタスクまたはエンドツーエンドのクラスタリングに依存していた既存の作業からの大きな逸脱を示しています。さらに、オブジェクトまたはそのパーツに関する情報を含む事前情報を持つことの重要性について議論し、教師なしの方法でそのような事前情報を取得するためのいくつかの可能性について説明します。実験的評価は、我々の方法が既存の研究に勝る重要な利点を伴うことを示しています。まず、学習したピクセル埋め込みは、PASCALのK-Meansを使用してセマンティックグループに直接クラスター化できます。完全に教師なしの設定では、このような困難なベンチマークでセマンティックセグメンテーションタスクを解決する前例はありません。次に、COCOやDAVISなどの新しいデータセットに転送すると、表現が強力なベースラインよりも向上する可能性があります。コードが利用可能です。
Being able to learn dense semantic representations of images without supervision is an important problem in computer vision. However, despite its significance, this problem remains rather unexplored, with a few exceptions that considered unsupervised semantic segmentation on small-scale datasets with a narrow visual domain. In this paper, we make a first attempt to tackle the problem on datasets that have been traditionally utilized for the supervised case. To achieve this, we introduce a two-step framework that adopts a predetermined mid-level prior in a contrastive optimization objective to learn pixel embeddings. This marks a large deviation from existing works that relied on proxy tasks or end-to-end clustering. Additionally, we argue about the importance of having a prior that contains information about objects, or their parts, and discuss several possibilities to obtain such a prior in an unsupervised manner. Experimental evaluation shows that our method comes with key advantages over existing works. First, the learned pixel embeddings can be directly clustered in semantic groups using K-Means on PASCAL. Under the fully unsupervised setting, there is no precedent in solving the semantic segmentation task on such a challenging benchmark. Second, our representations can improve over strong baselines when transferred to new datasets, e.g. COCO and DAVIS. The code is available.