解釈可能な解きほぐされた表現を学習することは、非常に重要でありながら挑戦的な課題です。この論文では、ラベル付きデータとラベルなしデータの両方を使用して解くために、Dual Swap Disentangling(DSD)と呼ばれる弱半教師付き方法を提案します。サンプルのグループの完全な注釈に依存する従来の弱く監督された方法とは異なり、ペアのサンプルでは、色などの共有属性を示す限られた注釈のみが必要です。このモデルは、デュアルオートエンコーダー構造の形式を取ります。ラベル付きペアを使用して解くには、「エンコード-スワップ-デコード」プロセスに従います。まず、共有属性に対応するエンコードの部分を交換し、次に取得したハイブリッドコードをデコードして元の入力ペアを再構築します。ラベルのないペアの場合、指定されたエンコード部分で「エンコード-スワップ-デコード」プロセスを2回実行し、最終的な出力を強制して入力ペアを近似します。エンコーディングの一部を分離し、それらを前後に交換することにより、ラベルのないサンプルのエンコーディングの次元ごとのモジュール性と移植性を課します。これにより、ラベル付きペアのガイダンスの下でのほぐしが暗黙的に促進されます。この二重スワップメカニズムは、半監視設定に合わせて調整されており、非常に効果的であることがわかりました。広い領域からの画像データセットの実験は、このモデルが最先端の解きほぐし性能をもたらすことを示しています。
Learning interpretable disentangled representations is a crucial yet challenging task. In this paper, we propose a weakly semi-supervised method, termed as Dual Swap Disentangling (DSD), for disentangling using both labeled and unlabeled data. Unlike conventional weakly supervised methods that rely on full annotations on the group of samples, we require only limited annotations on paired samples that indicate their shared attribute like the color. Our model takes the form of a dual autoencoder structure. To achieve disentangling using the labeled pairs, we follow a "encoding-swap-decoding" process, where we first swap the parts of their encodings corresponding to the shared attribute and then decode the obtained hybrid codes to reconstruct the original input pairs. For unlabeled pairs, we follow the "encoding-swap-decoding" process twice on designated encoding parts and enforce the final outputs to approximate the input pairs. By isolating parts of the encoding and swapping them back and forth, we impose the dimension-wise modularity and portability of the encodings of the unlabeled samples, which implicitly encourages disentangling under the guidance of labeled pairs. This dual swap mechanism, tailored for semi-supervised setting, turns out to be very effective. Experiments on image datasets from a wide domain show that our model yields state-of-the-art disentangling performances.