arXiv reaDer
完全に教師なしの画像検索のための自己監視された一貫した量子化
Self-Supervised Consistent Quantization for Fully Unsupervised Image Retrieval
教師なし画像検索は、高価なデータ注釈なしで効率的な検索システムを学習することを目的としていますが、既存の方法のほとんどは、手作りの特徴記述子または事前にトレーニングされた特徴抽出器に大きく依存しています。人間の監視を最小限に抑えるために、最近の進歩では、視覚的特徴と量子化コードを共同で最適化するために、深いモデルを最初からトレーニングすることを目的とした、完全に監視されていない深い画像検索が提案されています。ただし、既存のアプローチは主に、基礎となる意味構造情報を考慮せずにインスタンスの対照学習に焦点を合わせているため、パフォーマンスが最適ではありません。この作業では、部分一貫性のある量子化とグローバルな一貫性のある量子化で構成される、完全に監視されていない深い画像検索への新しい自己監視型一貫性量子化アプローチを提案します。部分的に一貫性のある量子化では、コードワードの多様性の正則化を使用して、部分的に隣接する意味的一貫性の学習を考案します。これにより、自己監視として、サブ量子化された表現の基礎となる隣接構造情報を発見できます。グローバルな一貫性のある量子化では、埋め込み表現と量子化表現の両方に対照学習を採用し、これらの表現を融合して、インスタンス間の一貫した対照正則化を実現します。これにより、量子化中の有用な表現情報の損失を補い、インスタンス間の一貫性を正規化できます。部分的でグローバルな一貫した量子化という統一された学習目標により、私たちのアプローチは、モデル学習を容易にするために、より豊富な自己監視の手がかりを活用します。 3つのベンチマークデータセットでの広範な実験は、最先端の方法に対する私たちのアプローチの優位性を示しています。
Unsupervised image retrieval aims to learn an efficient retrieval system without expensive data annotations, but most existing methods rely heavily on handcrafted feature descriptors or pre-trained feature extractors. To minimize human supervision, recent advance proposes deep fully unsupervised image retrieval aiming at training a deep model from scratch to jointly optimize visual features and quantization codes. However, existing approach mainly focuses on instance contrastive learning without considering underlying semantic structure information, resulting in sub-optimal performance. In this work, we propose a novel self-supervised consistent quantization approach to deep fully unsupervised image retrieval, which consists of part consistent quantization and global consistent quantization. In part consistent quantization, we devise part neighbor semantic consistency learning with codeword diversity regularization. This allows to discover underlying neighbor structure information of sub-quantized representations as self-supervision. In global consistent quantization, we employ contrastive learning for both embedding and quantized representations and fuses these representations for consistent contrastive regularization between instances. This can make up for the loss of useful representation information during quantization and regularize consistency between instances. With a unified learning objective of part and global consistent quantization, our approach exploits richer self-supervision cues to facilitate model learning. Extensive experiments on three benchmark datasets show the superiority of our approach over the state-of-the-art methods.
updated: Mon Jun 20 2022 14:39:59 GMT+0000 (UTC)
published: Mon Jun 20 2022 14:39:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト