クラスタリングは、教師なし学習のユビキタスツールです。既存の自己教師あり表現学習方法のほとんどは、通常、視覚的に優勢な特徴に基づいてサンプルをクラスター化します。これは画像ベースの自己監視には適していますが、背景に焦点を合わせるのではなく動きを理解する必要があるビデオでは失敗することがよくあります。 RGBの補足情報としてオプティカルフローを使用すると、この問題を軽減できます。ただし、2つのビューの単純な組み合わせでは、意味のある利益が得られないことがわかります。この論文では、2つのビューを組み合わせる原理的な方法を提案します。具体的には、他のビューの最終的なクラスター割り当てをガイドする前に、各ビューの初期クラスター割り当てを使用する新しいクラスタリング戦略を提案します。このアイデアは、両方のビューに同様のクラスター構造を適用し、形成されたクラスターは意味的に抽象的であり、個々のビューからのノイズの多い入力に対して堅牢になります。さらに、クラスターベースの自己教師あり学習法で一般的な機能崩壊問題に対処するための新しい正則化戦略を提案します。私たちの広範な評価は、ビデオ検索や行動認識などの下流のタスクで学習した表現の有効性を示しています。具体的には、ビデオ検索ではUCFで7%、HMDBで4%、ビデオ分類ではUCFで5%、HMDBで6%、最先端のパフォーマンスを上回っています。
Clustering is a ubiquitous tool in unsupervised learning. Most of the existing self-supervised representation learning methods typically cluster samples based on visually dominant features. While this works well for image-based self-supervision, it often fails for videos, which require understanding motion rather than focusing on background. Using optical flow as complementary information to RGB can alleviate this problem. However, we observe that a naive combination of the two views does not provide meaningful gains. In this paper, we propose a principled way to combine two views. Specifically, we propose a novel clustering strategy where we use the initial cluster assignment of each view as prior to guide the final cluster assignment of the other view. This idea will enforce similar cluster structures for both views, and the formed clusters will be semantically abstract and robust to noisy inputs coming from each individual view. Additionally, we propose a novel regularization strategy to address the feature collapse problem, which is common in cluster-based self-supervised learning methods. Our extensive evaluation shows the effectiveness of our learned representations on downstream tasks, e.g., video retrieval and action recognition. Specifically, we outperform the state of the art by 7% on UCF and 4% on HMDB for video retrieval, and 5% on UCF and 6% on HMDB for video classification