arXiv reaDer
d次元オブジェクトの投影によって生成された画像に対するSO(d)回転のアクションの定義:幾何学的VAEを使用して推論を行うためのアプリケーション
Defining an action of SO(d)-rotations on images generated by projections of d-dimensional objects: Applications to pose inference with Geometric VAEs
変分オートエンコーダー(VAE)の最近の進歩により、潜在多様体をSO(d)などのコンパクトリー群として学習できるようになりました。このアプローチでは、データがリー群自体と同相である部分空間にあると想定しているため、ここでは、SO(d)でポーズが不明なd次元ボリュームを投影することによって生成される画像のコンテキストでこの想定がどのように成り立つかを調査します。グループ空間と画像空間のさまざまな理論的候補を検討すると、ボリュームに対してより具体的な幾何学的制約が必要になるため、データ空間でグループアクションを定義する試みは一般に失敗することがわかります。幾何学的VAEを使用して、私たちの実験は、この制約が適切なポーズ推論の鍵であることを確認し、アプリケーションと将来の作業のためのこれらの結果の可能性について説明します。
Recent advances in variational autoencoders (VAEs) have enabled learning latent manifolds as compact Lie groups, such as SO(d). Since this approach assumes that data lies on a subspace that is homeomorphic to the Lie group itself, we here investigate how this assumption holds in the context of images that are generated by projecting a d-dimensional volume with unknown pose in SO(d). Upon examining different theoretical candidates for the group and image space, we show that the attempt to define a group action on the data space generally fails, as it requires more specific geometric constraints on the volume. Using geometric VAEs, our experiments confirm that this constraint is key to proper pose inference, and we discuss the potential of these results for applications and future work.
updated: Sat Jul 23 2022 19:22:28 GMT+0000 (UTC)
published: Sat Jul 23 2022 19:22:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト