arXiv reaDer
敵対的な摂動による対照的なビデオ表現学習
Contrastive Video Representation Learning via Adversarial Perturbations
 敵対的な摂動はノイズのようなパターンであり、データを微妙に変更する一方で、他の場合は正確な分類器に失敗します。このホワイトペーパーでは、新しい対比学習設定内でそのような摂動を使用してネガティブサンプルを作成し、それを使用して改善されたビデオ表現を生成することを提案します。この目的のために、フレームごとのビデオ認識のための十分にトレーニングされたディープモデルを前提として、最初にこのモデルに適応した敵対的なノイズを生成します。ポジティブバッグとネガティブバッグは、それぞれ完全なビデオシーケンスからの元のデータ機能とそれらの摂動された対応物を使用して生成されます。古典的な対比学習法とは異なり、2つのバッグを互いに分離する一連の判別超平面を(部分空間として)学習するバイナリ分類問題を開発します。次に、このサブスペースは、ビデオの記述子として使用され、識別サブスペースプールと呼ばれます。摂動された特徴は、元の特徴と混同される可能性が高いデータクラスに属しているため、特徴的な部分空間は、元のデータをより代表する特徴空間の部分を特徴付け、したがって、堅牢なビデオ表現を提供します。このような記述子を学習するために、Stiefel多様体に部分空間学習目標を定式化し、リーマン最適化法を使用して効率的に解きます。いくつかのビデオデータセットの実験を提供し、最先端の結果を示します。
Adversarial perturbations are noise-like patterns that can subtly change the data, while failing an otherwise accurate classifier. In this paper, we propose to use such perturbations within a novel contrastive learning setup to build negative samples, which are then used to produce improved video representations. To this end, given a well-trained deep model for per-frame video recognition, we first generate adversarial noise adapted to this model. Positive and negative bags are produced using the original data features from the full video sequence and their perturbed counterparts, respectively. Unlike the classic contrastive learning methods, we develop a binary classification problem that learns a set of discriminative hyperplanes -- as a subspace -- that will separate the two bags from each other. This subspace is then used as a descriptor for the video, dubbed discriminative subspace pooling. As the perturbed features belong to data classes that are likely to be confused with the original features, the discriminative subspace will characterize parts of the feature space that are more representative of the original data, and thus may provide robust video representations. To learn such descriptors, we formulate a subspace learning objective on the Stiefel manifold and resort to Riemannian optimization methods for solving it efficiently. We provide experiments on several video datasets and demonstrate state-of-the-art results.
updated: Thu Apr 16 2020 00:03:53 GMT+0000 (UTC)
published: Tue Jul 24 2018 22:46:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト