視覚的な学習と理解のために、オブジェクト中心の表現を継続的に学習するためのフレームワークを提案します。既存のオブジェクト中心の表現は、シーン内のオブジェクトを個別化する監視に依存するか、現実世界の複雑なシーンをほとんど処理できない教師なし解きほぐしを実行します。注釈の負担を軽減し、データの統計的複雑さに対する制約を緩和するために、この方法では、相互作用を活用して、オブジェクト中心の表現を学習しながら、オブジェクトの多様なバリエーションと対応するトレーニング信号を効果的にサンプリングします。学習全体を通じて、オブジェクトは未知のIDでランダムな順序で1つずつストリーミングされ、畳み込みハイパーネットワークを介して各オブジェクトの識別重みを合成できる潜在コードに関連付けられます。さらに、学習したオブジェクトの再識別と忘却の防止を採用して、学習プロセスを効率的かつ堅牢にします。提案されたフレームワークの主要な機能の広範な調査を実行し、学習した表現の特性を分析します。さらに、ダウンストリームタスクでのラベル効率を向上させることができる表現の学習における提案されたフレームワークの機能を示します。コードとトレーニング済みモデルは、https://github.com/pptrick/Object-Pursuitで公開されています。
We propose a framework to continuously learn object-centric representations for visual learning and understanding. Existing object-centric representations either rely on supervisions that individualize objects in the scene, or perform unsupervised disentanglement that can hardly deal with complex scenes in the real world. To mitigate the annotation burden and relax the constraints on the statistical complexity of the data, our method leverages interactions to effectively sample diverse variations of an object and the corresponding training signals while learning the object-centric representations. Throughout learning, objects are streamed one by one in random order with unknown identities, and are associated with latent codes that can synthesize discriminative weights for each object through a convolutional hypernetwork. Moreover, re-identification of learned objects and forgetting prevention are employed to make the learning process efficient and robust. We perform an extensive study of the key features of the proposed framework and analyze the characteristics of the learned representations. Furthermore, we demonstrate the capability of the proposed framework in learning representations that can improve label efficiency in downstream tasks. Our code and trained models are made publicly available at: https://github.com/pptrick/Object-Pursuit.