arXiv reaDer
ViCE: スーパーピクセル化と対照的なクラスター割り当てによる高密度表現学習の改善
ViCE: Improving Dense Representation Learning by Superpixelization and Contrasting Cluster Assignment
最近の自己教師ありモデルは、教師あり方法と同等またはそれ以上のパフォーマンスを示しており、AI システムが事実上無制限のデータから視覚的表現を学習できるようになっています。ただし、これらの方法は通常、分類ベースであるため、正確な空間情報を保持する高解像度の特徴マップを学習するには効果的ではありません。この作業では、スーパーピクセルを導入して、意味的に豊富な視覚的概念の埋め込みの自己教師あり学習を改善します。画像を視覚的に一貫した領域の小さなセットに分解すると、詳細を維持しながら計算の複雑さが O(1000) 減少します。領域を対比すると、対比学習法の有効性が向上し、高解像度画像への適用性が拡張され、オーバークラスタリングのパフォーマンスが向上し、スーパーピクセルがグリッドよりも優れており、領域マスキングがパフォーマンスを向上させることが実験的に示されています。高密度の埋め込みの表現力は、Cityscapes の SOTA 教師なしセマンティック セグメンテーション ベンチマークと、COCO の畳み込みモデルを改善することで実証されています。
Recent self-supervised models have demonstrated equal or better performance than supervised methods, opening for AI systems to learn visual representations from practically unlimited data. However, these methods are typically classification-based and thus ineffective for learning high-resolution feature maps that preserve precise spatial information. This work introduces superpixels to improve self-supervised learning of dense semantically rich visual concept embeddings. Decomposing images into a small set of visually coherent regions reduces the computational complexity by O(1000) while preserving detail. We experimentally show that contrasting over regions improves the effectiveness of contrastive learning methods, extends their applicability to high-resolution images, improves overclustering performance, superpixels are better than grids, and regional masking improves performance. The expressiveness of our dense embeddings is demonstrated by improving the SOTA unsupervised semantic segmentation benchmark on Cityscapes, and for convolutional models on COCO.
updated: Fri Oct 07 2022 10:40:03 GMT+0000 (UTC)
published: Wed Nov 24 2021 12:27:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト