霊長類の視覚認識は、ポーズ、位置、色、テクスチャなどのさまざまな属性で、新しく導入されたものであっても、視覚オブジェクトを「想像」する能力において、人工ニューラルネットワークの視覚認識よりも優れています。ニューラルネットワークが想像するのを支援するためさまざまな属性を持つオブジェクトについて、例のグループで表現された目的関数のファミリーを、グループ監視学習(GSL)と呼ばれる新しい学習フレームワークとして提案します。 GSLを使用すると、入力をスワップ可能なコンポーネントを使用して解きほぐされた表現に分解できます。これを再結合して、新しいサンプルを合成できます。たとえば、赤いボートと青い車の画像を分解して再結合し、赤い車の新しい画像を合成することができます。学習フレームワークでトレーニングされたグループ監視ゼロショット合成ネットワーク(GZS-Net)と呼ばれるオートエンコーダーに基づく実装を提案します。これにより、トレーニング中にそのような例が見られなくても、高品質の赤い車を製造できます。オープンソースの新しいデータセットに加えて、既存のベンチマークでモデルと学習フレームワークをテストします。 GSLでトレーニングされたGZS-Netが最先端の方法よりも優れていることを定性的および定量的に示します。
Visual cognition of primates is superior to that of artificial neural networks in its ability to 'envision' a visual object, even a newly-introduced one, in different attributes including pose, position, color, texture, etc. To aid neural networks to envision objects with different attributes, we propose a family of objective functions, expressed on groups of examples, as a novel learning framework that we term Group-Supervised Learning (GSL). GSL allows us to decompose inputs into a disentangled representation with swappable components, that can be recombined to synthesize new samples. For instance, images of red boats & blue cars can be decomposed and recombined to synthesize novel images of red cars. We propose an implementation based on auto-encoder, termed group-supervised zero-shot synthesis network (GZS-Net) trained with our learning framework, that can produce a high-quality red car even if no such example is witnessed during training. We test our model and learning framework on existing benchmarks, in addition to anew dataset that we open-source. We qualitatively and quantitatively demonstrate that GZS-Net trained with GSL outperforms state-of-the-art methods.