arXiv reaDer
自己監視学習のためのオブジェクト認識トリミング
Object-Aware Cropping for Self-Supervised Learning
自己教師あり学習の最近の成功の中心的な要素は、データ拡張のトリミングです。これは、自己教師あり損失のポジティブビューとして使用される画像のサブ領域を選択します。基本的な仮定は、特定の画像のランダムにトリミングおよびサイズ変更された領域が、学習された表現がキャプチャする対象のオブジェクトに関する情報を共有することです。この仮定は、画像全体のランダムな切り抜きに存在する可能性が高い、大きな中央のオブジェクトが存在するImageNetなどのデータセットでほぼ満たされます。ただし、OpenImagesやCOCOなど、実際のキュレーションされていないデータをよりよく表す他のデータセットでは、通常、画像内に複数の小さなオブジェクトがあります。この作業では、通常のランダムなトリミングに基づく自己監視学習が、このようなデータセットではうまく機能しないことを示します。ランダムなクロップの一方または両方を、オブジェクト提案アルゴリズムから取得したクロップに置き換えることを提案します。これにより、モデルはオブジェクトレベルとシーンレベルの両方のセマンティック表現を学習するようになります。オブジェクト認識クロッピングと呼ばれるこのアプローチを使用すると、分類およびオブジェクト検出ベンチマークでのシーンクロッピングよりも大幅に改善されます。たとえば、OpenImagesでは、MoCo-v2ベースの事前トレーニングを使用して、ランダムなシーンレベルのトリミングよりも8.8%mAPの改善を実現しています。また、COCOおよびPASCAL-VOCオブジェクトの検出とセグメンテーションのタスクが、最先端の自己監視学習アプローチよりも大幅に改善されていることも示しています。私たちのアプローチは効率的で、シンプルで一般的であり、ほとんどの既存の対照的および非対照的な自己監視学習フレームワークで使用できます。
A core component of the recent success of self-supervised learning is cropping data augmentation, which selects sub-regions of an image to be used as positive views in the self-supervised loss. The underlying assumption is that randomly cropped and resized regions of a given image share information about the objects of interest, which the learned representation will capture. This assumption is mostly satisfied in datasets such as ImageNet where there is a large, centered object, which is highly likely to be present in random crops of the full image. However, in other datasets such as OpenImages or COCO, which are more representative of real world uncurated data, there are typically multiple small objects in an image. In this work, we show that self-supervised learning based on the usual random cropping performs poorly on such datasets. We propose replacing one or both of the random crops with crops obtained from an object proposal algorithm. This encourages the model to learn both object and scene level semantic representations. Using this approach, which we call object-aware cropping, results in significant improvements over scene cropping on classification and object detection benchmarks. For example, on OpenImages, our approach achieves an improvement of 8.8% mAP over random scene-level cropping using MoCo-v2 based pre-training. We also show significant improvements on COCO and PASCAL-VOC object detection and segmentation tasks over the state-of-the-art self-supervised learning approaches. Our approach is efficient, simple and general, and can be used in most existing contrastive and non-contrastive self-supervised learning frameworks.
updated: Wed Dec 01 2021 07:23:37 GMT+0000 (UTC)
published: Wed Dec 01 2021 07:23:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト