arXiv reaDer
ビデオからの条件付きオブジェクト中心の学習
Conditional Object-Centric Learning from Video
オブジェクト中心の表現は、構成世界モデルを構築できる柔軟な抽象化を提供することにより、より体系的な一般化への有望な道です。単純な2Dおよび3Dデータセットに関する最近の研究では、オブジェクト中心の誘導バイアスを持つモデルは、監視を必要とせずに、データの統計構造のみから意味のあるオブジェクトをセグメント化して表すことを学習できることが示されています。ただし、このような完全に教師なしの方法は、オブジェクトのサイズやシーンの3Dジオメトリの事前確率など、ますます複雑になる誘導バイアスを使用しているにもかかわらず、多様で現実的なデータにスケーリングできません。このホワイトペーパーでは、代わりに弱教師ありアプローチを採用し、1)オプティカルフローの形式でビデオデータの時間的ダイナミクスを使用し、2)単純なオブジェクト位置キューでモデルを調整してセグメント化と追跡を可能にする方法に焦点を当てます。はるかに現実的な合成データ内のオブジェクト。現実的な外観の合成シーンのオプティカルフローを予測するためにトレーニングするSlotAttentionの順次拡張を導入し、最初のフレームのオブジェクトの重心など、このモデルの初期状態を小さなヒントのセットで調整することを示します。インスタンスのセグメンテーションを大幅に改善するには十分です。これらの利点は、トレーニングの配布を超えて、新しいオブジェクト、新しい背景、およびより長いビデオシーケンスに一般化されます。また、このような初期状態条件付けは、特定のオブジェクトまたはオブジェクトの一部についてモデルにクエリを実行するための柔軟なインターフェイスとして推論中に使用できることもわかりました。これにより、さまざまな弱く監視されたアプローチへの道が開かれ、訓練されたモデル。
Object-centric representations are a promising path toward more systematic generalization by providing flexible abstractions upon which compositional world models can be built. Recent work on simple 2D and 3D datasets has shown that models with object-centric inductive biases can learn to segment and represent meaningful objects from the statistical structure of the data alone without the need for any supervision. However, such fully-unsupervised methods still fail to scale to diverse realistic data, despite the use of increasingly complex inductive biases such as priors for the size of objects or the 3D geometry of the scene. In this paper, we instead take a weakly-supervised approach and focus on how 1) using the temporal dynamics of video data in the form of optical flow and 2) conditioning the model on simple object location cues can be used to enable segmenting and tracking objects in significantly more realistic synthetic data. We introduce a sequential extension to Slot Attention which we train to predict optical flow for realistic looking synthetic scenes and show that conditioning the initial state of this model on a small set of hints, such as center of mass of objects in the first frame, is sufficient to significantly improve instance segmentation. These benefits generalize beyond the training distribution to novel objects, novel backgrounds, and to longer video sequences. We also find that such initial-state-conditioning can be used during inference as a flexible interface to query the model for specific objects or parts of objects, which could pave the way for a range of weakly-supervised approaches and allow more effective interaction with trained models.
updated: Tue Mar 15 2022 09:26:44 GMT+0000 (UTC)
published: Wed Nov 24 2021 16:10:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト