arXiv reaDer
半教師あり行動認識のための時間勾配からの学習
Learning from Temporal Gradient for Semi-supervised Action Recognition
半教師ありビデオアクション認識により、ラベル付けされたデータが非常に限られている場合でも、ディープニューラルネットワークで優れたパフォーマンスを実現できる傾向があります。ただし、既存のメソッドは主に現在の画像ベースのメソッド(FixMatchなど)から転送されます。時間的ダイナミクスと固有のマルチモーダル属性を特に利用しないと、それらの結果は最適ではない可能性があります。ビデオ内のエンコードされた時間情報をより有効に活用するために、このペーパーでは、より注意深い特徴抽出のための追加のモダリティとして時間勾配を導入します。具体的には、私たちの方法は、時間勾配(TG)から細粒度のモーション表現を明示的に抽出し、さまざまなモダリティ(RGBとTG)に一貫性を課します。半教師あり行動認識のパフォーマンスは、推論中に追加の計算やパラメーターなしで大幅に改善されます。私たちの方法は、いくつかの典型的な半教師あり設定(つまり、ラベル付けされたデータのさまざまな比率)の下で、3つのビデオアクション認識ベンチマーク(つまり、Kinetics-400、UCF-101、およびHMDB-51)で最先端のパフォーマンスを実現します。 。
Semi-supervised video action recognition tends to enable deep neural networks to achieve remarkable performance even with very limited labeled data. However, existing methods are mainly transferred from current image-based methods (e.g., FixMatch). Without specifically utilizing the temporal dynamics and inherent multimodal attributes, their results could be suboptimal. To better leverage the encoded temporal information in videos, we introduce temporal gradient as an additional modality for more attentive feature extraction in this paper. To be specific, our method explicitly distills the fine-grained motion representations from temporal gradient (TG) and imposes consistency across different modalities (i.e., RGB and TG). The performance of semi-supervised action recognition is significantly improved without additional computation or parameters during inference. Our method achieves the state-of-the-art performance on three video action recognition benchmarks (i.e., Kinetics-400, UCF-101, and HMDB-51) under several typical semi-supervised settings (i.e., different ratios of labeled data).
updated: Thu Nov 25 2021 20:30:30 GMT+0000 (UTC)
published: Thu Nov 25 2021 20:30:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト