Mix and match networks: cross-modal alignment for zero-pair image-to-image translation
 このペーパーでは、複数のモダリティ間で、目に見えないクロスモーダル画像から画像への変換を推測する問題に対処します。ペアワイズ翻訳の一部だけが見られた(つまり、トレーニングされた)と想定し、残りの見えない翻訳(トレーニングペアが利用できない場合)を推測します。ミックスアンドマッチネットワークを提案します。これは、複数のエンコーダーとデコーダーが、トレーニング段階で相互作用していなくても、ソースエンコーダーとターゲットデコーダーをカスケードするだけで目的の変換が得られるように調整されるアプローチです。見えない)。主な課題は、エンコーダとデコーダのペアのボトルネックでの潜在的な表現の整列にあります。オートエンコーダ、堅牢なサイド情報、潜在的な一貫性の損失など、アライメントを促進するためのいくつかのツールを備えたアーキテクチャを提案します。他のペアワイズの画像から画像への変換アプローチと比較して、有効性とスケーラビリティの観点から私たちのアプローチの利点を示します。また、ゼロペアのクロスモーダル画像変換、つまり、目的が深さから意味論的セグメンテーションを推論する難しい設定(およびその逆)を明示的なセグメンテーション-深度ペアなしで、2つの(互いに素な)セグメンテーション-RGBと深度-からのみ提案します。 RGBトレーニングセット。目に見えないモダリティ間で共有されている情報の特定の部分に到達できない可能性があるため、目に見えないモダリティ間でこの共有情報を活用できる疑似ペアを活用するバリアントをさらに提案します。
This paper addresses the problem of inferring unseen cross-modal image-to-image translations between multiple modalities. We assume that only some of the pairwise translations have been seen (i.e. trained) and infer the remaining unseen translations (where training pairs are not available). We propose mix and match networks, an approach where multiple encoders and decoders are aligned in such a way that the desired translation can be obtained by simply cascading the source encoder and the target decoder, even when they have not interacted during the training stage (i.e. unseen). The main challenge lies in the alignment of the latent representations at the bottlenecks of encoder-decoder pairs. We propose an architecture with several tools to encourage alignment, including autoencoders and robust side information and latent consistency losses. We show the benefits of our approach in terms of effectiveness and scalability compared with other pairwise image-to-image translation approaches. We also propose zero-pair cross-modal image translation, a challenging setting where the objective is inferring semantic segmentation from depth (and vice-versa) without explicit segmentation-depth pairs, and only from two (disjoint) segmentation-RGB and depth-RGB training sets. We observe that a certain part of the shared information between unseen modalities might not be reachable, so we further propose a variant that leverages pseudo-pairs which allows us to exploit this shared information between the unseen modalities.
updated: Fri May 15 2020 13:20:23 GMT+0000 (UTC)
published: Fri Mar 08 2019 17:27:29 GMT+0000 (UTC)
