arXiv reaDer
ゼロショット学習のためのビジョントランスフォーマーによるマルチヘッド自己注意
Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning
ゼロショット学習(ZSL)は、トレーニングフェーズでは観察されない、見えないオブジェクトクラスを認識することを目的としています。 ZSLに関する既存の一連の作業は、主に事前にトレーニングされた視覚的機能に依存しており、画像の明示的な属性ローカリゼーションメカニズムを欠いています。この作業では、見えないクラスの認識に役立つ属性を学習するために、ZSLの問題設定で注意ベースのモデルを提案します。私たちの方法は、Vision Transformerから採用された注意メカニズムを使用して、画像を小さなパッチに分割することにより、識別属性をキャプチャして学習します。 3つの人気のあるZSLベンチマーク(つまり、AWA2、CUB、SUN)で実験を行い、3つのデータセットすべてに新しい最先端の調和平均結果を設定します。これは、提案された方法の有効性を示しています。
Zero-Shot Learning (ZSL) aims to recognise unseen object classes, which are not observed during the training phase. The existing body of works on ZSL mostly relies on pretrained visual features and lacks the explicit attribute localisation mechanism on images. In this work, we propose an attention-based model in the problem settings of ZSL to learn attributes useful for unseen class recognition. Our method uses an attention mechanism adapted from Vision Transformer to capture and learn discriminative attributes by splitting images into small patches. We conduct experiments on three popular ZSL benchmarks (i.e., AWA2, CUB and SUN) and set new state-of-the-art harmonic mean results on all the three datasets, which illustrate the effectiveness of our proposed method.
updated: Fri Jul 30 2021 19:08:44 GMT+0000 (UTC)
published: Fri Jul 30 2021 19:08:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト