見えないクラスのオブジェクトを認識するために、ほとんどの既存のZero-Shot Learning(ZSL)メソッドは、最初にソースの見られたクラスのデータに基づいて共通の意味空間と視覚空間の間の互換性のある投影関数を学習し、それをターゲットの見えない部分に直接適用しますクラス。ただし、実際のシナリオでは、ソースドメインとターゲットドメイン間のデータ分散が一致しない場合があり、よく知られているドメインシフトの問題が発生します。テストインスタンスの視覚的特徴を異なるクラスターに分離できるという観察に基づいて、射影関数の一般性を向上させる(つまり、上記のドメインシフト問題を軽減する)ために、トランスダクティブZSLのクラス中心に新しい視覚構造制約を提案します。具体的には、3つの異なる戦略(対称面取り距離、2部一致距離、およびワッサーシュタイン距離)を採用して、テストインスタンスの予測される見えないセマンティック中心と視覚クラスター中心を揃えます。また、多くの無関係な画像がテストデータセットに存在する実際のケースを処理する新しいトレーニング戦略を提案しますが、これは以前の方法では考慮されていません。広く使用されている多くのデータセットの実験により、提案されている視覚構造の制約により、大幅なパフォーマンスの向上が常に得られ、最新の結果が得られることが実証されています。ソースコードはhttps://github.com/raywzy/VSCで入手できます。
To recognize objects of the unseen classes, most existing Zero-Shot Learning(ZSL) methods first learn a compatible projection function between the common semantic space and the visual space based on the data of source seen classes, then directly apply it to the target unseen classes. However, in real scenarios, the data distribution between the source and target domain might not match well, thus causing the well-known domain shift problem. Based on the observation that visual features of test instances can be separated into different clusters, we propose a new visual structure constraint on class centers for transductive ZSL, to improve the generality of the projection function (i.e. alleviate the above domain shift problem). Specifically, three different strategies (symmetric Chamfer-distance, Bipartite matching distance, and Wasserstein distance) are adopted to align the projected unseen semantic centers and visual cluster centers of test instances. We also propose a new training strategy to handle the real cases where many unrelated images exist in the test dataset, which is not considered in previous methods. Experiments on many widely used datasets demonstrate that the proposed visual structure constraint can bring substantial performance gain consistently and achieve state-of-the-art results. The source code is available at https://github.com/raywzy/VSC.