arXiv reaDer
ビデオ対応のための空間後時間自己教師あり学習
Spatial-then-Temporal Self-Supervised Learning for Video Correspondence
ラベル付けされていないビデオから一時的な対応を学習することは、コンピューター ビジョンにおいて非常に重要であり、さまざまな種類の自己監視型口実タスクによって取り組まれてきました。自己教師あり学習の場合、最近の研究では、トレーニング コストにもかかわらず、大規模なビデオ データセットを使用することが提案されています。トレーニング データのコストの問題に対処するために、空間の次に時間的な口実タスクを提案します。タスクは 2 つのステップで構成されます。まず、ラベルのない静止画像データからの対照学習を使用して、外観に敏感な特徴を取得します。次に、ラベルのないビデオ データに切り替えて、フレームを再構築することで動きに敏感な特徴を学習します。 2番目のステップでは、最初のステップで学習した外観感度を保持するためのグローバル相関蒸留損失と、時間的不連続性に対処するためのピラミッド構造のローカル相関蒸留損失を提案します。実験結果は、私たちの方法が一連の通信ベースのタスクで最先端の自己教師あり方法を凌駕することを示しています。実施されたアブレーション研究は、提案された 2 段階のタスクと損失関数の有効性を検証します。
Learning temporal correspondence from unlabeled videos is of vital importance in computer vision, and has been tackled by different kinds of self-supervised pretext tasks. For the self-supervised learning, recent studies suggest using large-scale video datasets despite the training cost. We propose a spatial-then-temporal pretext task to address the training data cost problem. The task consists of two steps. First, we use contrastive learning from unlabeled still image data to obtain appearance-sensitive features. Then we switch to unlabeled video data and learn motion-sensitive features by reconstructing frames. In the second step, we propose a global correlation distillation loss to retain the appearance sensitivity learned in the first step, as well as a local correlation distillation loss in a pyramid structure to combat temporal discontinuity. Experimental results demonstrate that our method surpasses the state-of-the-art self-supervised methods on a series of correspondence-based tasks. The conducted ablation studies verify the effectiveness of the proposed two-step task and loss functions.
updated: Fri Sep 16 2022 08:10:17 GMT+0000 (UTC)
published: Fri Sep 16 2022 08:10:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト