構成ゼロショット学習(CZSL)は、トレーニング中に見られる状態およびオブジェクトの視覚的プリミティブの目に見えない構成を認識することを目的としています。標準のCZSLの問題は、テスト時にどの見えない構成が利用可能になるかを知っているという仮定です。この作業では、テスト時に構成空間に制限が課せられず、検索空間に多数の見えない構成が含まれるオープンワールド設定で動作するこの仮定を克服します。この問題に対処するために、2つの原則に基づいた新しいアプローチであるCompositional Cosine Graph Embeddings(Co-CGE)を提案します。まず、Co-CGEは、グラフ畳み込みニューラルネットワークを介して、状態、オブジェクト、およびそれらの構成の間の依存関係をモデル化します。グラフは、情報を表示されている概念から表示されていない概念に伝播し、それらの表現を改善します。第2に、すべての見えない構成が等しく実行可能であるとは限らず、実行不可能な構成が学習された表現に損傷を与える可能性があるため、Co-CGEは、コサイン類似性ベースの損失のマージンおよびグラフの隣接行列。実験によると、私たちのアプローチは、オープンワールドシナリオで以前の方法を上回りながら、標準のCZSLで最先端のパフォーマンスを実現します。
Compositional Zero-Shot learning (CZSL) aims to recognize unseen compositions of state and object visual primitives seen during training. A problem with standard CZSL is the assumption of knowing which unseen compositions will be available at test time. In this work, we overcome this assumption operating on the open world setting, where no limit is imposed on the compositional space at test time, and the search space contains a large number of unseen compositions. To address this problem, we propose a new approach, Compositional Cosine Graph Embeddings (Co-CGE), based on two principles. First, Co-CGE models the dependency between states, objects and their compositions through a graph convolutional neural network. The graph propagates information from seen to unseen concepts, improving their representations. Second, since not all unseen compositions are equally feasible, and less feasible ones may damage the learned representations, Co-CGE estimates a feasibility score for each unseen composition, using the scores as margins in a cosine similarity-based loss and as weights in the adjacency matrix of the graphs. Experiments show that our approach achieves state-of-the-art performances in standard CZSL while outperforming previous methods in the open world scenario.