arXiv reaDer
パッチからオブジェクトへ: 空間推論を活用してより良い視覚表現を実現
From Patches to Objects: Exploiting Spatial Reasoning for Better Visual Representations
ディープラーニングの分野が学術研究の領域から実用化へと着実に移行するにつれ、自己教師ありの事前トレーニング手法の重要性がますます高まっています。これらの方法は、特に画像領域において、大量のラベルなし画像データを効果的に利用するための魅力的な戦略を提供し、それによって下流のタスクのパフォーマンスを向上させます。この論文では、空間推論に基づいた新しい補助事前トレーニング方法を提案します。私たちが提案する方法は、弁別自己教師付き方法の補助タスクとして空間推論を導入することにより、対比学習のより柔軟な定式化を利用します。空間推論は、サンプリングされた重複しないパッチ間の相対距離をネットワークに予測させることで機能します。これにより、ネットワークはオブジェクトのより詳細で複雑な内部表現とその構成部分間の関係を学習する必要があると私たちは主張します。私たちの実験は、同様の研究と比較して、線形評価における下流のパフォーマンスの大幅な向上を実証し、空間推論のさらなる研究への方向性を提供します。
As the field of deep learning steadily transitions from the realm of academic research to practical application, the significance of self-supervised pretraining methods has become increasingly prominent. These methods, particularly in the image domain, offer a compelling strategy to effectively utilize the abundance of unlabeled image data, thereby enhancing downstream tasks' performance. In this paper, we propose a novel auxiliary pretraining method that is based on spatial reasoning. Our proposed method takes advantage of a more flexible formulation of contrastive learning by introducing spatial reasoning as an auxiliary task for discriminative self-supervised methods. Spatial Reasoning works by having the network predict the relative distances between sampled non-overlapping patches. We argue that this forces the network to learn more detailed and intricate internal representations of the objects and the relationships between their constituting parts. Our experiments demonstrate substantial improvement in downstream performance in linear evaluation compared to similar work and provide directions for further research into spatial reasoning.
updated: Sun May 21 2023 07:46:46 GMT+0000 (UTC)
published: Sun May 21 2023 07:46:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト