arXiv reaDer
内部不一致ベースのOOD検出器を介した一般化されたゼロショット学習のための意味多様性転送ネットワーク
Semantic-diversity transfer network for generalized zero-shot learning via inner disagreement based OOD detector
ゼロショット学習(ZSL)は、目に見えないクラスのオブジェクトを認識することを目的としています。カーネルの問題は、視覚的機能と意味的機能の間に適切なマッピングを確立することにより、知識を目に見えるクラスから目に見えないクラスに転送することです。多くの既存の作品における知識の伝達は、主に次の事実のために制限されています。1)広く使用されている視覚的特徴はグローバルなものですが、意味属性と完全には一致していません。 2)既存の作品で学習されるマッピングは1つだけであり、多様な視覚的意味関係を効果的にモデル化することはできません。 3)一般化されたZSL(GZSL)のバイアス問題を効果的に処理できませんでした。この論文では、これらの制限を緩和するための2つの手法を提案します。最初に、最初の2つの制限に対処するセマンティックダイバーシティ転送ネットワーク(SetNet)を提案します。1)セマンティック属性とより一貫性のある複数のローカル視覚機能を学習するために、マルチアテンションアーキテクチャとダイバーシティ正則化が提案されます。多様な局所的視点から視覚的意味関係をモデル化するために、入力として多様な局所的特徴を幾何学的にとるプロジェクターアンサンブルが提案されています。次に、GZSLの内部不一致ベースのドメイン検出モジュール(ID3M)を提案して、クラスレベルの分類の前に見えないクラスのデータを選択する3番目の制限を緩和します。トレーニング段階で目に見えないクラスのデータがないため、ID3Mは新しい自己完結型のトレーニングスキームを採用し、設計された内部不一致基準に基づいて目に見えないクラスのデータを検出します。 3つの公開データセットでの実験結果は、探索されたID3Mを使用して提案されたSetNetが、30の最先端の方法に対して大幅な改善を達成することを示しています。
Zero-shot learning (ZSL) aims to recognize objects from unseen classes, where the kernel problem is to transfer knowledge from seen classes to unseen classes by establishing appropriate mappings between visual and semantic features. The knowledge transfer in many existing works is limited mainly due to the facts that 1) the widely used visual features are global ones but not totally consistent with semantic attributes; 2) only one mapping is learned in existing works, which is not able to effectively model diverse visual-semantic relations; 3) the bias problem in the generalized ZSL (GZSL) could not be effectively handled. In this paper, we propose two techniques to alleviate these limitations. Firstly, we propose a Semantic-diversity transfer Network (SetNet) addressing the first two limitations, where 1) a multiple-attention architecture and a diversity regularizer are proposed to learn multiple local visual features that are more consistent with semantic attributes and 2) a projector ensemble that geometrically takes diverse local features as inputs is proposed to model visual-semantic relations from diverse local perspectives. Secondly, we propose an inner disagreement based domain detection module (ID3M) for GZSL to alleviate the third limitation, which picks out unseen-class data before class-level classification. Due to the absence of unseen-class data in training stage, ID3M employs a novel self-contained training scheme and detects out unseen-class data based on a designed inner disagreement criterion. Experimental results on three public datasets demonstrate that the proposed SetNet with the explored ID3M achieves a significant improvement against 30 state-of-the-art methods.
updated: Thu Mar 17 2022 01:31:27 GMT+0000 (UTC)
published: Thu Mar 17 2022 01:31:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト