arXiv reaDer
ビデオ内のオブジェクト発見の予測による自己監視
Self-Supervision by Prediction for Object Discovery in Videos
魅力的な成功にもかかわらず、深層学習アルゴリズムは依然として注釈付きデータに大きく依存しています。一方、監視されていない設定は、特に多様なシナリオで適切な誘導バイアスを決定することに関して、多くの課題をもたらします。スケーラブルなソリューションの1つは、入力データの一部を活用してモデルに教師ありを生成させることです。これは、自己教師あり学習と呼ばれます。この論文では、予測タスクを自己監視として使用し、画像シーケンス表現のための新しいオブジェクト中心のモデルを構築します。オブジェクトの概念とモーションダイナミクスを解きほぐすことに加えて、私たちの構成構造は、オクルージョンを明示的に処理し、予測されたフレームの構成のために推測されたオブジェクトと背景を塗りつぶします。空間的および時間的に一貫性のあるオブジェクト表現を促進する補助損失関数の助けを借りて、手動の注釈や事前トレーニングされたネットワークの助けを借りずに、自己監視フレームワークをトレーニングできます。初期の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測に向けた有望なステップであることを確認しています。
Despite their irresistible success, deep learning algorithms still heavily rely on annotated data. On the other hand, unsupervised settings pose many challenges, especially about determining the right inductive bias in diverse scenarios. One scalable solution is to make the model generate the supervision for itself by leveraging some part of the input data, which is known as self-supervised learning. In this paper, we use the prediction task as self-supervision and build a novel object-centric model for image sequence representation. In addition to disentangling the notion of objects and the motion dynamics, our compositional structure explicitly handles occlusion and inpaints inferred objects and background for the composition of the predicted frame. With the aid of auxiliary loss functions that promote spatially and temporally consistent object representations, our self-supervised framework can be trained without the help of any manual annotation or pretrained network. Initial experiments confirm that the proposed pipeline is a promising step towards object-centric video prediction.
updated: Tue Mar 09 2021 19:14:33 GMT+0000 (UTC)
published: Tue Mar 09 2021 19:14:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト