arXiv reaDer
一般化されたゼロショット学習のためのビジョン トランスフォーマー ベースの特徴抽出
Vision Transformer-based Feature Extraction for Generalized Zero-Shot Learning
一般化ゼロショット学習 (GZSL) は、ディープ ラーニング モデルをトレーニングして、画像属性を使用して目に見えないクラスを識別する手法です。このホワイト ペーパーでは、ビジョン トランスフォーマー (ViT) を利用して、画像の特徴に含まれる属性関連情報を最大化する新しい GZSL アプローチを提案しました。 ViT では、画像解像度を低下させることなく画像領域全体を処理し、局所的な画像情報をパッチ フィーチャに保存します。これらの ViT の利点を十分に活用するために、パッチ機能と CLS 機能を利用して属性関連の画像機能を抽出します。特に、パッチ機能の属性関連情報を集約するために、属性アテンション モジュール (AAM) と呼ばれる新しいアテンション ベースのモジュールを提案します。 AAM では、各パッチの特徴と合成画像属性の間の相関関係が、各パッチの重要度として使用されます。ベンチマーク データセットに関する広範な実験から、提案された手法が最先端の GZSL アプローチよりも大幅に優れていることを示します。
Generalized zero-shot learning (GZSL) is a technique to train a deep learning model to identify unseen classes using the image attribute. In this paper, we put forth a new GZSL approach exploiting Vision Transformer (ViT) to maximize the attribute-related information contained in the image feature. In ViT, the entire image region is processed without the degradation of the image resolution and the local image information is preserved in patch features. To fully enjoy these benefits of ViT, we exploit patch features as well as the CLS feature in extracting the attribute-related image feature. In particular, we propose a novel attention-based module, called attribute attention module (AAM), to aggregate the attribute-related information in patch features. In AAM, the correlation between each patch feature and the synthetic image attribute is used as the importance weight for each patch. From extensive experiments on benchmark datasets, we demonstrate that the proposed technique outperforms the state-of-the-art GZSL approaches by a large margin.
updated: Thu Feb 02 2023 04:52:08 GMT+0000 (UTC)
published: Thu Feb 02 2023 04:52:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト