Gated Variational AutoEncoders: Incorporating Weak Supervision to Encourage Disentanglement
 変分オートエンコーダー(VAE)は、表現の潜在的な埋め込みを生成する手段を提供します。これまでの研究では、特に下流のタスクについて、解きほぐされた表現を達成することの利点が強調されてきました。ただし、VAEでのもつれの解消を促進する方法についてはいくつかの議論があり、VAEの既存の実装では常にもつれが解消されないことを示す証拠があります。 VAEの潜在空間がどれほどうまく解かれているかの評価は、特定の問題に対してどの属性を解くべきかという主観的な期待に対して評価されることがよくあります。したがって、定義上、達成すべきことに関するドメイン知識は既にありますが、それを達成するために教師なしアプローチを使用します。 Gated-VAEを形成するために、利用可能なドメインの知識をトレーニングプロセスに組み込む弱監視アプローチを提案します。このプロセスには、代表的な埋め込みの分割と逆伝播のゲーティングが含まれます。すべてのパーティションはフォワードパスで使用されますが、選択されたイメージ/ターゲットの組み合わせに応じて、さまざまなパーティションを通じて勾配が逆伝播されます。このアプローチを使用して、beta-VAE、InfoVAE、DIP-VAE-IIなどの既存のVAEモデルを変更できます。実験では、ゲーテッドバックプロパゲーションを使用して、潜在的な要因が意図したパーティションで表されることを示しています。このアプローチは、顔の表情から頭のポーズを解く目的で顔の画像に適用されます。定量的メトリックは、Gated-VAEを使用すると、ゲートなしの実装と比較して、平均的なもつれ解除、完全性、情報性が向上することを示しています。潜在的なトラバーサルの定性的評価は、弱い/うるさい監督しか利用できない場合でも、表情からの頭のポーズのもつれを解きほぐします。
Variational AutoEncoders (VAEs) provide a means to generate representational latent embeddings. Previous research has highlighted the benefits of achieving representations that are disentangled, particularly for downstream tasks. However, there is some debate about how to encourage disentanglement with VAEs and evidence indicates that existing implementations of VAEs do not achieve disentanglement consistently. The evaluation of how well a VAE's latent space has been disentangled is often evaluated against our subjective expectations of which attributes should be disentangled for a given problem. Therefore, by definition, we already have domain knowledge of what should be achieved and yet we use unsupervised approaches to achieve it. We propose a weakly-supervised approach that incorporates any available domain knowledge into the training process to form a Gated-VAE. The process involves partitioning the representational embedding and gating backpropagation. All partitions are utilised on the forward pass but gradients are backpropagated through different partitions according to selected image/target pairings. The approach can be used to modify existing VAE models such as beta-VAE, InfoVAE and DIP-VAE-II. Experiments demonstrate that using gated backpropagation, latent factors are represented in their intended partition. The approach is applied to images of faces for the purpose of disentangling head-pose from facial expression. Quantitative metrics show that using Gated-VAE improves average disentanglement, completeness and informativeness, as compared with un-gated implementations. Qualitative assessment of latent traversals demonstrate its disentanglement of head-pose from expression, even when only weak/noisy supervision is available.
updated: Fri Nov 15 2019 01:46:16 GMT+0000 (UTC)
published: Fri Nov 15 2019 01:46:16 GMT+0000 (UTC)
