arXiv reaDer
サイボーグ:セグメンテーションでのグラウンディングによる対照的にブートストラップオブジェクト表現
CYBORGS: Contrastively Bootstrapping Object Representations by Grounding in Segmentation
対照学習における最近の多くのアプローチは、ImageNetのような象徴的な画像での事前トレーニングとCOCOのような複雑なシーンでの事前トレーニングの間のギャップを埋めるために働いています。このギャップは主に、一般的に使用されるランダムなクロップ拡張が、さまざまなオブジェクトの混雑したシーン画像で意味的に一貫性のないコンテンツを取得するために存在します。以前の作品では、前処理パイプラインを使用して顕著なオブジェクトをローカライズしてトリミングを改善していますが、エンドツーエンドのソリューションはまだとらえどころのないものです。この作業では、表現とセグメンテーションの共同学習を通じてこの目標を達成するフレームワークを提案します。セグメンテーションマスクを利用して、マスクに依存する対照損失のあるモデルをトレーニングし、部分的にトレーニングされたモデルを使用して、より優れたマスクをブートストラップします。これらの2つのコンポーネント間で反復することにより、セグメンテーション情報の対照的な更新をグラウンディングし、同時に事前トレーニング全体でセグメンテーションを改善します。実験は、分類、検出、およびセグメンテーションにおいて、表現がダウンストリームタスクに堅牢に転送されることを示しています。
Many recent approaches in contrastive learning have worked to close the gap between pretraining on iconic images like ImageNet and pretraining on complex scenes like COCO. This gap exists largely because commonly used random crop augmentations obtain semantically inconsistent content in crowded scene images of diverse objects. Previous works use preprocessing pipelines to localize salient objects for improved cropping, but an end-to-end solution is still elusive. In this work, we propose a framework which accomplishes this goal via joint learning of representations and segmentation. We leverage segmentation masks to train a model with a mask-dependent contrastive loss, and use the partially trained model to bootstrap better masks. By iterating between these two components, we ground the contrastive updates in segmentation information, and simultaneously improve segmentation throughout pretraining. Experiments show our representations transfer robustly to downstream tasks in classification, detection and segmentation.
updated: Thu Mar 17 2022 14:20:05 GMT+0000 (UTC)
published: Thu Mar 17 2022 14:20:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト