arXiv reaDer
視覚的セマンティック埋め込みの残りの部分
What Remains of Visual Semantic Embeddings
ゼロショット学習(ZSL)は、幼児に新しいオブジェクトを認識させるメカニズムとの緊密なリンクにより、10年にわたって関心が高まっています。視覚的意味埋め込みモデルのさまざまなパラダイムは、視覚的特徴と分散単語表現を整列させるように設計されていますが、現在のZSLモデルが分散単語表現から意味情報をどの程度エンコードするかは不明です。この作業では、標準のImageNetベンチマークの構造上の欠陥を回避するために、階層化されたImageNetの分割をZSLタスクに導入します。事前トレーニングとして対照的な学習を使用して、ZSLの統合フレームワークを構築します。これにより、セマンティック情報の漏洩がなく、線形分離可能な視覚機能が促進されます。私たちの仕事は、意味論的推論が決定的であるZSL設定で視覚的意味論埋め込みモデルを評価するために公平になります。このフレームワークを使用して、現在のZSLモデルが単語のアナロジーと単語の階層から意味関係をエンコードするのに苦労していることを示します。私たちの分析は、ZSLタスクにおけるコンテキスト言語表現の役割を探求する動機を提供します。
Zero shot learning (ZSL) has seen a surge in interest over the decade for its tight links with the mechanism making young children recognize novel objects. Although different paradigms of visual semantic embedding models are designed to align visual features and distributed word representations, it is unclear to what extent current ZSL models encode semantic information from distributed word representations. In this work, we introduce the split of tiered-ImageNet to the ZSL task, in order to avoid the structural flaws in the standard ImageNet benchmark. We build a unified framework for ZSL with contrastive learning as pre-training, which guarantees no semantic information leakage and encourages linearly separable visual features. Our work makes it fair for evaluating visual semantic embedding models on a ZSL setting in which semantic inference is decisive. With this framework, we show that current ZSL models struggle with encoding semantic relationships from word analogy and word hierarchy. Our analyses provide motivation for exploring the role of context language representations in ZSL tasks.
updated: Mon Jul 26 2021 06:55:11 GMT+0000 (UTC)
published: Mon Jul 26 2021 06:55:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト