Feature-Supervised Action Modality Transfer
このペーパーでは、限られたモダリティ固有のラベル付きの例しか利用できない場合に、RGB、深度マップ、3Dスケルトンシーケンスなどのビデオモダリティでのアクションの認識と検出に努めています。 RGBおよび派生オプティカルフローについては、モダリティの多くの大規模なラベル付きデータセットが利用可能になっています。これらは、利用可能なラベル付きの例の量が限られているRGBデータセットから新しいアクションを認識または検出するときに、事実上の事前トレーニングの選択肢になっています。残念ながら、他のモダリティの大規模なラベル付きアクションデータセットは、事前トレーニングには利用できません。この論文では、私たちの目標は、大規模なラベル付きRGBデータから学習することにより、非RGBビデオモダリティの限られた例からのアクションを認識することです。この目的のために、2段階のトレーニングプロセスを提案します。(i)RGBトレーニングを受けた教師ネットワークからアクション表現の知識を抽出し、それをRGB以外の学生ネットワークに適応させます。 (ii)次に、ターゲットモダリティの利用可能なラベル付きの例を使用して転送モデルを微調整します。知識の伝達については、2つのモダリティ(RGBとターゲットモダリティ)のラベルのないペアに依存して、機能レベルの表現を教師から学生ネットワークに転送する機能監視戦略を導入します。 2つのRGBソースデータセットと2つの非RGBターゲットデータセットを使用したアブレーションと一般化は、オプティカルフローティーチャーが、異なるターゲットドメインで評価された場合でも、深度マップと3Dスケルトンの両方でRGBよりも優れたアクション転送機能を提供することを示しています。別のタスク。代替のクロスモーダルアクション転送方法と比較して、特に、学習するラベル付きの非RGBの例が不足している場合に、パフォーマンスが大幅に向上することを示しています。
This paper strives for action recognition and detection in video modalities like RGB, depth maps or 3D-skeleton sequences when only limited modality-specific labeled examples are available. For the RGB, and derived optical-flow, modality many large-scale labeled datasets have been made available. They have become the de facto pre-training choice when recognizing or detecting new actions from RGB datasets that have limited amounts of labeled examples available. Unfortunately, large-scale labeled action datasets for other modalities are unavailable for pre-training. In this paper, our goal is to recognize actions from limited examples in non-RGB video modalities, by learning from large-scale labeled RGB data. To this end, we propose a two-step training process: (i) we extract action representation knowledge from an RGB-trained teacher network and adapt it to a non-RGB student network. (ii) we then fine-tune the transfer model with available labeled examples of the target modality. For the knowledge transfer we introduce feature-supervision strategies, which rely on unlabeled pairs of two modalities (the RGB and the target modality) to transfer feature level representations from the teacher to the student network. Ablations and generalizations with two RGB source datasets and two non-RGB target datasets demonstrate that an optical-flow teacher provides better action transfer features than RGB for both depth maps and 3D-skeletons, even when evaluated on a different target domain, or for a different task. Compared to alternative cross-modal action transfer methods we show a good improvement in performance especially when labeled non-RGB examples to learn from are scarce
