arXiv reaDer
時間的対照学習による半教師あり行動認識
Semi-Supervised Action Recognition with Temporal Contrastive Learning
面倒に収集されたアクティビティラベルが不足しているため、ほんの一握りのラベル付きビデオからアクションを認識することを学ぶことは困難な問題です。ビデオ速度を変更してもアクションは変更されないという事実を利用して、ラベルのないビデオを2つの異なる速度で使用して、2経路の時間的対照モデルを学習することでこの問題に取り組みます。具体的には、2つの異なる速度で同じビデオのエンコードされた表現間の類似性を最大化し、異なる速度で再生された異なるビデオ間の類似性を最小化することを提案します。このようにして、監視されていないビデオのプールに存在する「時間」の観点から、豊富な監視情報を使用します。ビデオ再生速度を操作するこのシンプルで効果的な戦略により、複数の多様なベンチマークデータセットとネットワークアーキテクチャにわたって、洗練された最先端の半教師あり画像認識方法のビデオ拡張を大幅に上回ります。興味深いことに、提案されたアプローチは、一般化と堅牢性を示すドメイン外のラベルのないビデオから恩恵を受けています。また、厳密なアブレーションと分析を実行して、アプローチを検証します。
Learning to recognize actions from only a handful of labeled videos is a challenging problem due to the scarcity of tediously collected activity labels. We approach this problem by learning a two-pathway temporal contrastive model using unlabeled videos at two different speeds leveraging the fact that changing video speed does not change an action. Specifically, we propose to maximize the similarity between encoded representations of the same video at two different speeds as well as minimize the similarity between different videos played at different speeds. This way we use the rich supervisory information in terms of 'time' that is present in otherwise unsupervised pool of videos. With this simple yet effective strategy of manipulating video playback rates, we considerably outperform video extensions of sophisticated state-of-the-art semi-supervised image recognition methods across multiple diverse benchmark datasets and network architectures. Interestingly, our proposed approach benefits from out-of-domain unlabeled videos showing generalization and robustness. We also perform rigorous ablations and analysis to validate our approach.
updated: Thu Feb 04 2021 17:28:35 GMT+0000 (UTC)
published: Thu Feb 04 2021 17:28:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト