arXiv reaDer
ASMR:アダプティブセマンティックマージンレギュラライザーを使用した属性ベースの個人検索の学習
ASMR: Learning Attribute-Based Person Search with Adaptive Semantic Margin Regularizer
属性ベースの人物検索は、クエリとして指定された一連のテキスト属性に最もよく一致する人物画像を見つけるタスクです。このタスクの主な課題は、属性と画像の間の大きなモダリティギャップです。ギャップを減らすために、属性ベースの個人検索のコンテキストでクロスモーダル埋め込みを学習するための新しい損失を提示します。私たちは、一連の属性を同じ特性を共有する人々のカテゴリーと見なします。 2つのモダリティの共同埋め込みスペースでは、モダリティの調整のために、画像が人物のカテゴリに近づきます。さらに重要なことに、セマンティック距離によって適応的に決定されたマージンによって、人物カテゴリのペアを押し離します。距離メトリックはエンドツーエンドで学習されるため、損失は人物カテゴリを関連付けるときに各属性の重要性を考慮します。適応セマンティックマージンによって導かれる私たちの損失は、人の画像のより識別的でセマンティックによく配置された分布につながります。結果として、それは単純な埋め込みモデルがベルやホイッスルなしで公開ベンチマークで最先端の記録を達成することを可能にします。
Attribute-based person search is the task of finding person images that are best matched with a set of text attributes given as query. The main challenge of this task is the large modality gap between attributes and images. To reduce the gap, we present a new loss for learning cross-modal embeddings in the context of attribute-based person search. We regard a set of attributes as a category of people sharing the same traits. In a joint embedding space of the two modalities, our loss pulls images close to their person categories for modality alignment. More importantly, it pushes apart a pair of person categories by a margin determined adaptively by their semantic distance, where the distance metric is learned end-to-end so that the loss considers importance of each attribute when relating person categories. Our loss guided by the adaptive semantic margin leads to more discriminative and semantically well-arranged distributions of person images. As a consequence, it enables a simple embedding model to achieve state-of-the-art records on public benchmarks without bells and whistles.
updated: Tue Aug 10 2021 09:19:06 GMT+0000 (UTC)
published: Tue Aug 10 2021 09:19:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト