arXiv reaDer
シーンとモーションを分離することによる教師なしビデオ表現学習の強化
Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion
特に画像表現学習とは対照的に、ビデオ表現学習がキャプチャすると期待する1つの重要な要素は、オブジェクトの動きです。ただし、現在の主流のビデオデータセットでは、一部のアクションカテゴリがアクションが発生するシーンと非常に関連しているため、モデルがシーン情報のみがエンコードされるソリューションに劣化する傾向があることがわかりました。たとえば、訓練されたモデルは、フィールドを見ているという理由だけでサッカーをしているビデオを予測し、対象がフィールドでチアリーダーとして踊っていることを無視する場合があります。これは、ビデオ表現の学習に対する当初の意図に反し、無視できないさまざまなデータセットにシーンのバイアスをもたらす可能性があります。この問題に取り組むために、2つの簡単な操作でシーンとモーション(DSM)を分離することを提案します。これにより、モーション情報に対するモデルの注意がより効果的になります。具体的には、ビデオごとにポジティブクリップとネガティブクリップを作成します。元のビデオと比較して、ポジティブ/ネガティブはモーションタッチされていない/壊れていますが、シーンローカル妨害と時間的ローカル妨害によってシーンが壊れている/触れられていません。私たちの目的は、潜在的なスペースで元のクリップにネガをさらに押しながらポジを近づけることです。このようにして、ネットワークの時間的感度がさらに向上する一方で、シーンの影響が弱められます。さまざまなバックボーンと異なる事前トレーニングデータセットを使用して2つのタスクで実験を行い、同じバックボーンを使用するUCF101およびHMDB51データセットでのアクション認識タスクに対して、私たちのメソッドがSOTAメソッドを超えており、8.1%と8.8%の顕著な改善が見られます。
One significant factor we expect the video representation learning to capture, especially in contrast with the image representation learning, is the object motion. However, we found that in the current mainstream video datasets, some action categories are highly related with the scene where the action happens, making the model tend to degrade to a solution where only the scene information is encoded. For example, a trained model may predict a video as playing football simply because it sees the field, neglecting that the subject is dancing as a cheerleader on the field. This is against our original intention towards the video representation learning and may bring scene bias on different dataset that can not be ignored. In order to tackle this problem, we propose to decouple the scene and the motion (DSM) with two simple operations, so that the model attention towards the motion information is better paid. Specifically, we construct a positive clip and a negative clip for each video. Compared to the original video, the positive/negative is motion-untouched/broken but scene-broken/untouched by Spatial Local Disturbance and Temporal Local Disturbance. Our objective is to pull the positive closer while pushing the negative farther to the original clip in the latent space. In this way, the impact of the scene is weakened while the temporal sensitivity of the network is further enhanced. We conduct experiments on two tasks with various backbones and different pre-training datasets, and find that our method surpass the SOTA methods with a remarkable 8.1% and 8.8% improvement towards action recognition task on the UCF101 and HMDB51 datasets respectively using the same backbone.
updated: Fri Dec 04 2020 14:32:54 GMT+0000 (UTC)
published: Sat Sep 12 2020 09:54:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト