arXiv reaDer
インスタンス内VICReg:自己監視型画像パッチ埋め込みのバッグ
Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding
最近、自己監視学習(SSL)は、画像表現の学習において非常に経験的な進歩を遂げました。ただし、表現に関する私たちの理解と知識はまだ限られています。この作業は、SOTAシャムネットワークベースのSSLアプローチの成功は、主に画像パッチの表現の学習に基づいていることを示しています。特に、固定スケールの画像パッチのみの表現を学習し、画像(インスタンス)のさまざまなパッチ表現を線形に集約すると、いくつかのベンチマークのベースライン方法と同等またはそれ以上の結果を達成できることを示します。さらに、パッチ表現の集約により、さまざまなSOTAベースラインメソッドを大幅に改善できることを示します。また、SSLの目的と、一般的な不変性の観点を補足する画像パッチの共起統計モデリングとの間に正式な接続を確立します。埋め込み空間と投影空間で異なる画像パッチの最近傍を視覚化することにより、投影はより不変であるが、埋め込み空間はより多くの同変性と局所性を維持する傾向があることを示します。最後に、この作品の発見に基づいて、将来の方向性についての仮説を提案します。
Recently, self-supervised learning (SSL) has achieved tremendous empirical advancements in learning image representation. However, our understanding and knowledge of the representation are still limited. This work shows that the success of the SOTA siamese-network-based SSL approaches is primarily based on learning a representation of image patches. Particularly, we show that when we learn a representation only for fixed-scale image patches and aggregate different patch representations linearly for an image (instance), it can achieve on par or even better results than the baseline methods on several benchmarks. Further, we show that the patch representation aggregation can also improve various SOTA baseline methods by a large margin. We also establish a formal connection between the SSL objective and the image patches co-occurrence statistics modeling, which supplements the prevailing invariance perspective. By visualizing the nearest neighbors of different image patches in the embedding space and projection space, we show that while the projection has more invariance, the embedding space tends to preserve more equivariance and locality. Finally, we propose a hypothesis for the future direction based on the discovery of this work.
updated: Fri Jun 17 2022 18:11:23 GMT+0000 (UTC)
published: Fri Jun 17 2022 18:11:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト