空間的に高密度な自己教師あり学習は、教師なしセグメンテーションや高密度の下流タスクの事前トレーニングに有望なアプリケーションとして急速に成長している問題領域です。ビデオの形で時系列データが豊富にあるにもかかわらず、この情報豊富なソースはほとんど見落とされてきました。私たちの論文は、高密度の自己教師あり学習に時間的一貫性を組み込んだ新しいアプローチを提案することで、このギャップに対処することを目的としています。画像専用の手法では、動画では同等の性能を実現することさえ困難ですが、本手法では動画だけでなく画像の表現品質も向上します。タイムチューニングと呼ばれる私たちのアプローチは、画像の事前トレーニングされたモデルから始まり、ラベルのないビデオに対する新しい自己教師型時間的アライメントクラスタリング損失を使用してモデルを微調整します。これにより、ビデオから画像表現への高レベルの情報の転送が効果的に促進されます。時間調整により、ビデオの教師なしセマンティック セグメンテーションの最先端技術が 8 ~ 10% 向上し、画像と一致します。この方法は、豊富に利用できるビデオを活用することで、さらなる自己監視型スケーリングへの道を開くものと考えています。実装はここにあります: https://github.com/SMSD75/Timetuning
Spatially dense self-supervised learning is a rapidly growing problem domain with promising applications for unsupervised segmentation and pretraining for dense downstream tasks. Despite the abundance of temporal data in the form of videos, this information-rich source has been largely overlooked. Our paper aims to address this gap by proposing a novel approach that incorporates temporal consistency in dense self-supervised learning. While methods designed solely for images face difficulties in achieving even the same performance on videos, our method improves not only the representation quality for videos-but also images. Our approach, which we call time-tuning, starts from image-pretrained models and fine-tunes them with a novel self-supervised temporal-alignment clustering loss on unlabeled videos. This effectively facilitates the transfer of high-level information from videos to image representations. Time-tuning improves the state-of-the-art by 8-10% for unsupervised semantic segmentation on videos and matches it for images. We believe this method paves the way for further self-supervised scaling by leveraging the abundant availability of videos. The implementation can be found here : https://github.com/SMSD75/Timetuning