Cross-modal knowledge distillation for action recognition
  この作業では、RGBビデオなどのモダリティでトレーニングされたアクション認識のネットワークを、3Dの人間のポーズのシーケンスなどの別のモダリティのアクションを認識するように適合させる方法について説明します。この目的のために、ソースモダリティの訓練された教師ネットワークの知識を抽出し、ターゲットモダリティの学生ネットワークの小さなアンサンブルに転送します。クロスモーダルな知識の蒸留では、注釈付きのデータは必要ありません。代わりに、両方のモダリティのシーケンスのペアを監視として使用します。これは簡単に取得できます。 KLロスを使用する知識の蒸留に関する以前の研究とは対照的に、学生ネットワークの小さなアンサンブルの相互学習とクロスエントロピー損失がよりよく機能することを示します。実際、クロスモーダルな知識の蒸留のために提案されたアプローチは、完全な監督で訓練された学生ネットワークの精度をほぼ達成します。
In this work, we address the problem how a network for action recognition that has been trained on a modality like RGB videos can be adapted to recognize actions for another modality like sequences of 3D human poses. To this end, we extract the knowledge of the trained teacher network for the source modality and transfer it to a small ensemble of student networks for the target modality. For the cross-modal knowledge distillation, we do not require any annotated data. Instead we use pairs of sequences of both modalities as supervision, which are straightforward to acquire. In contrast to previous works for knowledge distillation that use a KL-loss, we show that the cross-entropy loss together with mutual learning of a small ensemble of student networks performs better. In fact, the proposed approach for cross-modal knowledge distillation nearly achieves the accuracy of a student network trained with full supervision.
updated: Thu Oct 10 2019 15:22:53 GMT+0000 (UTC)
published: Thu Oct 10 2019 15:22:53 GMT+0000 (UTC)
