オブジェクトの位置を外観から解きほぐす視覚データの新しい表現を提案します。 Deep Latent Particles(DLP)と呼ばれる私たちの方法は、視覚入力を低次元の潜在的な「粒子」に分解します。各粒子は、その空間的な位置と周囲の領域の特徴によって記述されます。このような表現の学習を促進するために、VAEベースのアプローチに従い、空間ソフトマックスアーキテクチャに基づく粒子位置の事前分布と、粒子間の面取り距離に触発された証拠の下限損失の修正を導入します。 DLP表現は、監視されていないキーポイント(KP)の検出、画像操作、複数の動的オブジェクトで構成されるシーンのビデオ予測などのダウンストリームタスクに役立つことを示しています。さらに、問題の確率的解釈が、他のタスクの中でも特にモデル選択に使用できる粒子位置の不確実性推定を自然に提供することを示します。ビデオとコードが利用可能です:https://taldatech.github.io/deep-latent-particles-web/
We propose a new representation of visual data that disentangles object position from appearance. Our method, termed Deep Latent Particles (DLP), decomposes the visual input into low-dimensional latent ``particles'', where each particle is described by its spatial location and features of its surrounding region. To drive learning of such representations, we follow a VAE-based approach and introduce a prior for particle positions based on a spatial-softmax architecture, and a modification of the evidence lower bound loss inspired by the Chamfer distance between particles. We demonstrate that our DLP representations are useful for downstream tasks such as unsupervised keypoint (KP) detection, image manipulation, and video prediction for scenes composed of multiple dynamic objects. In addition, we show that our probabilistic interpretation of the problem naturally provides uncertainty estimates for particle locations, which can be used for model selection, among other tasks. Videos and code are available: https://taldatech.github.io/deep-latent-particles-web/