arXiv reaDer
位置認識自己監視型変圧器
Location-Aware Self-Supervised Transformers
ピクセル レベルのラベルは、取得に特に費用がかかります。したがって、事前トレーニングは、セマンティック セグメンテーションのようなタスクでモデルを改善するための重要なステップです。ただし、ニューラル ネットワークを事前トレーニングするための著名なアルゴリズムでは、画像分類、CLIP による画像とテキストの配置、自己教師あり対照学習など、画像レベルの目的が使用されます。これらの目的は空間情報をモデル化しないため、空間推論を使用して下流のタスクを微調整するときに最適ではない可能性があります。この作業では、画像部分の相対的な位置を予測することにより、セマンティック セグメンテーションのためにネットワークを事前トレーニングすることを提案します。このタスクは、クエリ ビュー内の各パッチが別の参照ビューとの相対的な位置を予測する必要がある分類問題として定式化されます。クエリの参照パッチ フィーチャに表示される参照パッチ フィーチャのサブセットをマスクすることで、タスクの難易度を制御します。私たちの実験は、この位置認識 (LOCA) 自己教師あり事前トレーニングが、いくつかの挑戦的なセマンティック セグメンテーション ベンチマークに競合的に移行する表現につながることを示しています。
Pixel-level labels are particularly expensive to acquire. Hence, pretraining is a critical step to improve models on a task like semantic segmentation. However, prominent algorithms for pretraining neural networks use image-level objectives, e.g. image classification, image-text alignment a la CLIP, or self-supervised contrastive learning. These objectives do not model spatial information, which might be suboptimal when finetuning on downstream tasks with spatial reasoning. In this work, we propose to pretrain networks for semantic segmentation by predicting the relative location of image parts. We formulate this task as a classification problem where each patch in a query view has to predict its position relatively to another reference view. We control the difficulty of the task by masking a subset of the reference patch features visible to those of the query. Our experiments show that this location-aware (LOCA) self-supervised pretraining leads to representations that transfer competitively to several challenging semantic segmentation benchmarks.
updated: Mon Dec 05 2022 16:24:29 GMT+0000 (UTC)
published: Mon Dec 05 2022 16:24:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト