感覚データは、多くの場合、独立したコンテンツと変換要因で構成されています。たとえば、顔の画像は、コンテンツとして形状を持ち、変形としてポーズをとることがあります。与えられたデータからこれらの要因を別々に推測するために、さまざまな「もつれを解く」モデルが提案されています。ただし、これらの多くは監視ありまたは半監視ありであり、多くの場合使用できない属性ラベルが必要であるか、新しいコンテンツの一般化が許可されていません。この研究では、グループベースの変分オートエンコーダと呼ばれる新しい深層生成モデルを紹介します。ここでは、明示的なラベルは想定していませんが、同じコンテンツを持ちながら変換が異なるデータインスタンスをグループ化する、より弱い形式の構造を想定しています。これにより、グループ共通の要因をコンテンツとして、インスタンス固有の要因を変換として個別に推定します。このアプローチにより、目に見えないコンテンツに対応できる、コンテンツの一般的な連続空間を表すことを学習できます。単純さにもかかわらず、私たちのモデルは、5つのデータセットから、変換表現から高度に分離され、新しいコンテンツを持つデータに一般化できるコンテンツ表現を学習することに成功しました。さらに、潜在的なコンテンツコードの詳細な分析を提供し、モデルが注目すべき変換の不変性とコンテンツの一般化可能性をどのように取得するかについての洞察を示します。
Sensory data are often comprised of independent content and transformation factors. For example, face images may have shapes as content and poses as transformation. To infer separately these factors from given data, various ``disentangling'' models have been proposed. However, many of these are supervised or semi-supervised, either requiring attribute labels that are often unavailable or disallowing for generalization over new contents. In this study, we introduce a novel deep generative model, called group-based variational autoencoders. In this, we assume no explicit labels, but a weaker form of structure that groups together data instances having the same content but transformed differently; we thereby separately estimate a group-common factor as content and an instance-specific factor as transformation. This approach allows for learning to represent a general continuous space of contents, which can accommodate unseen contents. Despite the simplicity, our model succeeded in learning, from five datasets, content representations that are highly separate from the transformation representation and generalizable to data with novel contents. We further provide detailed analysis of the latent content code and show insight into how our model obtains the notable transformation invariance and content generalizability.