教師なしマルチオブジェクト表現学習は、一般化するオブジェクト中心表現の発見を導くための誘導バイアスに依存しています。ただし、これらの表現を学習する方法は、長いトレーニング時間と大量のメモリ消費のために非実用的であるか、重要な誘導バイアスを差し控えていることがわかります。この作業では、オブジェクト中心の表現の教師なし学習のための効率的なフレームワークである EfficientMORL を紹介します。対称性とエンタングルメントの両方を必要とすることによって引き起こされる最適化の課題は、フレームワークへの依存を最小限に抑えるように設計することにより、実際に高コストの反復償却推論によって対処できることを示します。まず、階層型変分オートエンコーダーがボトムアップ推論を通じて対称的で絡み合っていない表現を抽出し、次に軽量ネットワークがトップダウン フィードバックで表現を洗練します。トレーニング中に実行される改良ステップの数は、カリキュラムに従って削減されるため、ステップがゼロのテスト時には、モデルは改良された分解パフォーマンスの 99.1% を達成します。標準のマルチオブジェクト ベンチマークで強力なオブジェクト分解とエンタングルメントを実証しながら、以前の最先端モデルよりも 1 桁近く高速なトレーニングとテスト時間の推論を実現します。
Unsupervised multi-object representation learning depends on inductive biases to guide the discovery of object-centric representations that generalize. However, we observe that methods for learning these representations are either impractical due to long training times and large memory consumption or forego key inductive biases. In this work, we introduce EfficientMORL, an efficient framework for the unsupervised learning of object-centric representations. We show that optimization challenges caused by requiring both symmetry and disentanglement can in fact be addressed by high-cost iterative amortized inference by designing the framework to minimize its dependence on it. We take a two-stage approach to inference: first, a hierarchical variational autoencoder extracts symmetric and disentangled representations through bottom-up inference, and second, a lightweight network refines the representations with top-down feedback. The number of refinement steps taken during training is reduced following a curriculum, so that at test time with zero steps the model achieves 99.1% of the refined decomposition performance. We demonstrate strong object decomposition and disentanglement on the standard multi-object benchmark while achieving nearly an order of magnitude faster training and test time inference over the previous state-of-the-art model.