半教師ありアクションの認識は、データアノテーションのコストが高いため、困難ですが重要なタスクです。この問題への一般的なアプローチは、ラベルのないデータに疑似ラベルを割り当てることです。これは、トレーニングの追加の監視として使用されます。通常、最近の作業では、疑似ラベルは、ラベル付けされたデータでモデルをトレーニングし、モデルからの信頼できる予測を使用してそれ自体を教えることによって取得されます。この作業では、クロスモデル疑似ラベリング(CMPL)と呼ばれるより効果的な疑似ラベリングスキームを提案します。具体的には、プライマリバックボーンに加えて軽量の補助ネットワークを導入し、相互の疑似ラベルを予測してもらいます。構造上のバイアスが異なるため、これら2つのモデルは同じビデオクリップから補完的な表現を学習する傾向があることがわかります。したがって、各モデルは、監視としてクロスモデル予測を利用することにより、対応するモデルから利益を得ることができます。さまざまなデータパーティションプロトコルでの実験は、既存の代替プロトコルよりもフレームワークが大幅に改善されていることを示しています。たとえば、CMPLは、RGBモダリティと1%のラベル付きデータのみを使用して、Kinetics-400とUCF-101で17.6%と25.1%のトップ1精度を達成し、ベースラインモデルであるFixMatchをそれぞれ9.0%と10.3%上回っています。
Semi-supervised action recognition is a challenging but important task due to the high cost of data annotation. A common approach to this problem is to assign unlabeled data with pseudo-labels, which are then used as additional supervision in training. Typically in recent work, the pseudo-labels are obtained by training a model on the labeled data, and then using confident predictions from the model to teach itself. In this work, we propose a more effective pseudo-labeling scheme, called Cross-Model Pseudo-Labeling (CMPL). Concretely, we introduce a lightweight auxiliary network in addition to the primary backbone, and ask them to predict pseudo-labels for each other. We observe that, due to their different structural biases, these two models tend to learn complementary representations from the same video clips. Each model can thus benefit from its counterpart by utilizing cross-model predictions as supervision. Experiments on different data partition protocols demonstrate the significant improvement of our framework over existing alternatives. For example, CMPL achieves 17.6% and 25.1% Top-1 accuracy on Kinetics-400 and UCF-101 using only the RGB modality and 1% labeled data, outperforming our baseline model, FixMatch, by 9.0% and 10.3%, respectively.