arXiv reaDer
グローバルおよびオブジェクト中心の表現の自己監視学習に向けて
Towards Self-Supervised Learning of Global and Object-Centric Representations
自己監視により、通常は1つの中心的なオブジェクトを含む自然画像の意味のある表現を学習できます。マルチエンティティシーンにどれだけうまく移行しますか?構造化されたオブジェクト中心の表現を自己監視で学習することの重要な側面について説明し、CLEVRデータセットでのいくつかの実験を通じて洞察を検証します。アーキテクチャに関しては、各画像パッチが1つのオブジェクトによって排他的に参加される注意ベースのオブジェクト検出のための競争の重要性を確認します。トレーニングでは、マッチングを備えた対照的な損失を潜在空間に直接適用して、ピクセルベースの再構成を回避できることを示します。ただし、このような最適化の目的は、フォールスネガティブ(繰り返し発生するオブジェクト)とフォールスポジティブ(マッチングエラー)に敏感です。したがって、データ拡張とネガティブサンプルの選択については慎重に検討する必要があります。
Self-supervision allows learning meaningful representations of natural images which usually contain one central object. How well does it transfer to multi-entity scenes? We discuss key aspects of learning structured object-centric representations with self-supervision and validate our insights through several experiments on the CLEVR dataset. Regarding the architecture, we confirm the importance of competition for attention-based object discovery, where each image patch is exclusively attended by one object. For training, we show that contrastive losses equipped with matching can be applied directly in a latent space, avoiding pixel-based reconstruction. However, such an optimization objective is sensitive to false negatives (recurring objects) and false positives (matching errors). Thus, careful consideration is required around data augmentation and negative sample selection.
updated: Fri Mar 11 2022 15:18:47 GMT+0000 (UTC)
published: Fri Mar 11 2022 15:18:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト