arXiv reaDer
ビデオ理解のための連合自己教師あり学習
Federated Self-supervised Learning for Video Understanding
カメラ対応のモバイルデバイスが普及しているため、エッジで大量のラベルのないビデオデータが生成されています。タスク固有のトレーニングのために潜在的な時空間表現を収集するために、さまざまな自己教師あり学習(SSL)手法が提案されていますが、プライバシーの懸念や通信コストなどの実際的な課題により、SSLを大規模に展開することはできません。これらの問題を軽減するために、ビデオSSLのタスクに連合学習(FL)を使用することを提案します。この作業では、現在の最先端(SOTA)ビデオSSL技術のパフォーマンスを評価し、kinetics-400データセットでシミュレートされた大規模なFL設定に統合された場合の欠点を特定します。続いて、さまざまな集約戦略と部分的な重みの更新を統合する、ビデオ用の新しいフェデレーションSSLフレームワーク(FedVSSLと呼ばれる)を提案します。広範な実験により、FedVSSLは、UCF-101で6.66%、HMDB-51で5.13%、ダウンストリーム検索タスクの集中型SOTAを上回っているため、その有効性と重要性が実証されています。
The ubiquity of camera-enabled mobile devices has lead to large amounts of unlabelled video data being produced at the edge. Although various self-supervised learning (SSL) methods have been proposed to harvest their latent spatio-temporal representations for task-specific training, practical challenges including privacy concerns and communication costs prevent SSL from being deployed at large scales. To mitigate these issues, we propose the use of Federated Learning (FL) to the task of video SSL. In this work, we evaluate the performance of current state-of-the-art (SOTA) video-SSL techniques and identify their shortcomings when integrated into the large-scale FL setting simulated with kinetics-400 dataset. We follow by proposing a novel federated SSL framework for video, dubbed FedVSSL, that integrates different aggregation strategies and partial weight updating. Extensive experiments demonstrate the effectiveness and significance of FedVSSL as it outperforms the centralized SOTA for the downstream retrieval task by 6.66% on UCF-101 and 5.13% on HMDB-51.
updated: Tue Jul 05 2022 11:39:35 GMT+0000 (UTC)
published: Tue Jul 05 2022 11:39:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト