arXiv reaDer
構成的ゼロショット学習のための不変の視覚的表現の学習
Learning Invariant Visual Representations for Compositional Zero-Shot Learning
コンポジションゼロショットラーニング(CZSL)は、トレーニングセットで見られる属性オブジェクトコンポジションから学習した知識を使用して、新しいコンポジションを認識することを目的としています。これまでの作品は、主に画像と構図を共通の埋め込みスペースに投影して、互換性スコアを測定していました。ただし、属性とオブジェクトの両方が上記で学習した視覚的表現を共有しているため、モデルは偽の相関関係を利用し、見られるペアにバイアスをかけます。代わりに、CZSLを配布外の一般化の問題として再考します。オブジェクトがドメインとして扱われる場合、オブジェクトに不変な機能を学習して、任意のオブジェクトにアタッチされた属性を確実に認識することができます。同様に、属性を持つオブジェクトをドメインとして認識するときに、属性不変の機能も学習できます。具体的には、タスクに関連付けられた固有の特性をキャプチャするために、表現レベルと勾配レベルでさまざまなドメインを整列させる不変の特徴学習フレームワークを提案します。 2つのCZSLベンチマークでの実験は、提案された方法が以前の最先端技術を大幅に上回っていることを示しています。
Compositional Zero-Shot Learning (CZSL) aims to recognize novel compositions using knowledge learned from seen attribute-object compositions in the training set. Previous works mainly project an image and a composition into a common embedding space to measure their compatibility score. However, both attributes and objects share the visual representations learned above, leading the model to exploit spurious correlations and bias towards seen pairs. Instead, we reconsider CZSL as an out-of-distribution generalization problem. If an object is treated as a domain, we can learn object-invariant features to recognize the attributes attached to any object reliably. Similarly, attribute-invariant features can also be learned when recognizing the objects with attributes as domains. Specifically, we propose an invariant feature learning framework to align different domains at the representation and gradient levels to capture the intrinsic characteristics associated with the tasks. Experiments on two CZSL benchmarks demonstrate that the proposed method significantly outperforms the previous state-of-the-art.
updated: Wed Jun 01 2022 11:33:33 GMT+0000 (UTC)
published: Wed Jun 01 2022 11:33:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト