このホワイト ペーパーでは、ラベルのないビデオから視覚的な対応関係 (つまり、ピクセル レベルの特徴間の類似性) を学習するビデオ オブジェクト セグメンテーション (VOS) の教師なし学習に焦点を当てます。以前の方法は主に、画像レベルまたはピクセル レベルで最適化する対照学習パラダイムに基づいています。画像レベルの最適化 (たとえば、ResNet の空間的にプールされた機能) は、堅牢な高レベルのセマンティクスを学習しますが、ピクセル レベルの機能が暗黙的に最適化されるため、最適ではありません。対照的に、ピクセル レベルの最適化はより明示的ですが、トレーニング データの視覚的な品質に敏感であり、オブジェクトの変形に対して堅牢ではありません。統合されたフレームワークでこれら 2 つのレベルの最適化を補完的に実行するために、ビジョン トランスフォーマー (ViT) で自然に設計されたクラス トークンとパッチ トークンの助けを借りて、純粋に生成的な観点から In-aNd-Out (INO) 生成的学習を提案します。具体的には、画像レベルの最適化のために、クラス トークンのローカル ビューからグローバル ビューへのアウトビュー イマジネーションを強制します。ピクセル レベルの最適化に関しては、パッチ トークンに対してビュー内のマスクされた画像モデリングを実行します。これは、画像の細かい構造を推測することによって、画像の破損した部分を回復します。これを生成学習と呼びます。時間情報をより適切に発見するために、機能とアフィニティ マトリックスの両方のレベルからフレーム間の一貫性を強制します。 DAVIS-2017 val と YouTube-VOS 2018 val に関する広範な実験では、INO が以前の最先端の方法よりも大幅に優れていることが示されています。コードが利用可能です: https://github.com/pansanity666/INO_VOS
In this paper, we focus on unsupervised learning for Video Object Segmentation (VOS) which learns visual correspondence (i.e., the similarity between pixel-level features) from unlabeled videos. Previous methods are mainly based on the contrastive learning paradigm, which optimize either in image level or pixel level. Image-level optimization (e.g., the spatially pooled feature of ResNet) learns robust high-level semantics but is sub-optimal since the pixel-level features are optimized implicitly. By contrast, pixel-level optimization is more explicit, however, it is sensitive to the visual quality of training data and is not robust to object deformation. To complementarily perform these two levels of optimization in a unified framework, we propose the In-aNd-Out (INO) generative learning from a purely generative perspective with the help of naturally designed class tokens and patch tokens in Vision Transformer (ViT). Specifically, for image-level optimization, we force the out-view imagination from local to global views on class tokens, which helps capture high-level semantics, and we name it as out-generative learning. As to pixel-level optimization, we perform in-view masked image modeling on patch tokens, which recovers the corrupted parts of an image via inferring its fine-grained structure, and we term it as in-generative learning. To discover the temporal information better, we additionally force the inter-frame consistency from both feature and affinity matrix levels. Extensive experiments on DAVIS-2017 val and YouTube-VOS 2018 val show that our INO outperforms previous state-of-the-art methods by significant margins. Code is available: https://github.com/pansanity666/INO_VOS