arXiv reaDer
時間的対応のための共同タスク自己監視学習
Joint-task Self-supervised Learning for Temporal Correspondence
  この論文は、ビデオから信頼できる密な対応を自己監視方式で学習することを提案します。私たちの学習プロセスは、2つの関連性の高いタスクを統合します。大きな画像領域の追跡と、連続するビデオフレーム間のきめの細かいピクセルレベルの関連付けの確立です。共有フレーム間アフィニティマトリックスを介して両方のタスク間の相乗効果を活用します。このマトリックスは、リージョンレベルとピクセルレベルの両方でビデオフレーム間の遷移を同時にモデル化します。領域レベルのローカライズは、検索領域を絞り込むことにより、きめの細かいマッチングのあいまいさを減らすのに役立ちます。粒度の細かいマッチングは、地域レベルのローカライズを容易にするボトムアップ機能を提供します。私たちの方法は、ビデオオブジェクトおよび部分セグメンテーションの伝播、キーポイントの追跡、オブジェクトの追跡など、さまざまな視覚的対応タスクにおいて、最先端の自己監視方法よりも優れています。私たちの自己監督法は、ImageNetで事前にトレーニングされたResNet-18から得られた完全に監督されたアフィニティ機能表現を上回ります。
This paper proposes to learn reliable dense correspondence from videos in a self-supervised manner. Our learning process integrates two highly related tasks: tracking large image regions \emph{and establishing fine-grained pixel-level associations between consecutive video frames. We exploit the synergy between both tasks through a shared inter-frame affinity matrix, which simultaneously models transitions between video frames at both the region- and pixel-levels. While region-level localization helps reduce ambiguities in fine-grained matching by narrowing down search regions; fine-grained matching provides bottom-up features to facilitate region-level localization. Our method outperforms the state-of-the-art self-supervised methods on a variety of visual correspondence tasks, including video-object and part-segmentation propagation, keypoint tracking, and object tracking. Our self-supervised method even surpasses the fully-supervised affinity feature representation obtained from a ResNet-18 pre-trained on the ImageNet.
updated: Thu Sep 26 2019 05:11:26 GMT+0000 (UTC)
published: Thu Sep 26 2019 05:11:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト