arXiv reaDer
自己監視型ビデオ表現学習のための正規化フローによる静的視覚的手がかりの抑制
Suppressing Static Visual Cues via Normalizing Flows for Self-Supervised Video Representation Learning
深い畳み込みニューラルネットワークによって行われたビデオ理解の大きな進歩にもかかわらず、既存の方法によって学習された特徴表現は、静的な視覚的手がかりに偏っている可能性があります。この問題に対処するために、自己監視ビデオ表現学習の確率的分析に基づいて静的視覚的手がかり(SSVC)を抑制する新しい方法を提案します。私たちの方法では、ビデオフレームは最初にエンコードされ、正規化フローを介して標準正規分布の下で潜在変数を取得します。ビデオ内の静的要因を確率変数としてモデル化することにより、各潜在変数の条件付き分布がシフトされ、正規にスケーリングされます。次に、時間の経過に伴う変化の少ない潜在変数が静的キューとして選択され、モーション保存されたビデオを生成するために抑制されます。最後に、ポジティブペアは、静的な手がかりに対する表現バイアスの問題を軽減するための対照的な学習のために、動きが保存されたビデオによって構築されます。バイアスの少ないビデオ表現は、さまざまなダウンストリームタスクにより一般化できます。公開されているベンチマークに関する広範な実験は、事前トレーニングに単一のRGBモダリティのみが使用されている場合、提案された方法が最先端の方法よりも優れていることを示しています。
Despite the great progress in video understanding made by deep convolutional neural networks, feature representation learned by existing methods may be biased to static visual cues. To address this issue, we propose a novel method to suppress static visual cues (SSVC) based on probabilistic analysis for self-supervised video representation learning. In our method, video frames are first encoded to obtain latent variables under standard normal distribution via normalizing flows. By modelling static factors in a video as a random variable, the conditional distribution of each latent variable becomes shifted and scaled normal. Then, the less-varying latent variables along time are selected as static cues and suppressed to generate motion-preserved videos. Finally, positive pairs are constructed by motion-preserved videos for contrastive learning to alleviate the problem of representation bias to static cues. The less-biased video representation can be better generalized to various downstream tasks. Extensive experiments on publicly available benchmarks demonstrate that the proposed method outperforms the state of the art when only single RGB modality is used for pre-training.
updated: Wed Dec 08 2021 06:26:39 GMT+0000 (UTC)
published: Tue Dec 07 2021 16:21:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト