arXiv reaDer
ゼロショット学習のための意味論的に接地された視覚的埋め込み
Semantically Grounded Visual Embeddings for Zero-Shot Learning
ゼロショット学習方法は、独立した視覚モデルと言語モデルから抽出された固定の視覚的および意味的埋め込みに依存しており、どちらも他の大規模なタスク用に事前にトレーニングされています。これは、現在のゼロショット学習フレームワークの弱点です。このようなばらばらの埋め込みでは、視覚情報とテキスト情報を共有のセマンティックコンテンツに適切に関連付けることができないためです。したがって、プロキシタスクで2ストリームネットワークを使用して画像とテキストの共同モデルを計算することにより、意味的に根拠のある豊かな視覚情報を学習することを提案します。属性によって提供される画像表現とテキスト表現の間のこの整合性を改善するために、補助的なキャプションを活用して、根拠のあるセマンティック情報を提供します。私たちの方法であるゼロショット学習用の吹き替えジョイント埋め込みは、いくつかのベンチマークデータセットで評価され、標準(aPYで+ 1.6%、FLOで+ 2.6%)と一般化(FLOで+ 2.6%)の両方で既存の最先端の方法のパフォーマンスを向上させます。 AWA2で+ 2.1%、CUBで+ 2.2%)ゼロショット認識。
Zero-shot learning methods rely on fixed visual and semantic embeddings, extracted from independent vision and language models, both pre-trained for other large-scale tasks. This is a weakness of current zero-shot learning frameworks as such disjoint embeddings fail to adequately associate visual and textual information to their shared semantic content. Therefore, we propose to learn semantically grounded and enriched visual information by computing a joint image and text model with a two-stream network on a proxy task. To improve this alignment between image and textual representations, provided by attributes, we leverage ancillary captions to provide grounded semantic information. Our method, dubbed joint embeddings for zero-shot learning is evaluated on several benchmark datasets, improving the performance of existing state-of-the-art methods in both standard (+1.6% on aPY, +2.6% on FLO) and generalized (+2.1% on AWA2, +2.2% on CUB) zero-shot recognition.
updated: Sun Apr 10 2022 13:58:35 GMT+0000 (UTC)
published: Mon Jan 03 2022 10:43:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト