arXiv reaDer
反復変分推論によるマルチオブジェクト表現学習
Multi-Object Representation Learning with Iterative Variational Inference
人間の知覚は、私たちのより高いレベルの認識と印象的な体系的な一般化能力の基礎を形成するオブジェクトを中心に構成されています。しかし、表現学習のほとんどの作業は、複数のオブジェクトを考慮せずに機能学習に焦点を当てているか、セグメンテーションを(多くの場合、監視されている)前処理ステップとして扱います。代わりに、オブジェクトを共同でセグメント化して表現することを学ぶことの重要性を主張します。シーンは複数のエンティティで構成されているという単純な仮定から始めて、画像を解きほぐされた解釈可能なオブジェクトにセグメント化することを学ぶことが可能であることを示します。私たちの方法は、監視なしで、隠された部分を修復し、より多くのオブジェクトを含むシーンや、新しい機能の組み合わせで見えないオブジェクトを推定することを学習します。また、反復変分推論の使用により、システムがあいまいな入力のマルチモーダル後代を学習でき、自然にシーケンスに拡張できることも示します。
Human perception is structured around objects which form the basis for our higher-level cognition and impressive systematic generalization abilities. Yet most work on representation learning focuses on feature learning without even considering multiple objects, or treats segmentation as an (often supervised) preprocessing step. Instead, we argue for the importance of learning to segment and represent objects jointly. We demonstrate that, starting from the simple assumption that a scene is composed of multiple entities, it is possible to learn to segment images into interpretable objects with disentangled representations. Our method learns -- without supervision -- to inpaint occluded parts, and extrapolates to scenes with more objects and to unseen objects with novel feature combinations. We also show that, due to the use of iterative variational inference, our system is able to learn multi-modal posteriors for ambiguous inputs and extends naturally to sequences.
updated: Mon Jul 27 2020 19:55:14 GMT+0000 (UTC)
published: Fri Mar 01 2019 18:21:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト