arXiv reaDer
DSSL:深い環境-テキストベースの人の検索のための人の分離学習
DSSL: Deep Surroundings-person Separation Learning for Text-based Person Retrieval
テキストベースの人物検索タスクに関するこれまでの多くの方法は、視覚的モダリティとテキストモダリティの両方からモダリティ不変の特徴を抽出することを目的として、潜在的な共通空間マッピングの学習に専念しています。それにもかかわらず、高次元データの複雑さのために、制約のないマッピングパラダイムは、不整合な情報をドロップしながら、対応する人物に関する識別の手がかりを適切にキャッチすることができません。直感的には、視覚データに含まれる情報は、相互に排他的な個人情報(PI)と周囲情報(SI)に分けることができます。この目的のために、本論文では、個人情報を効果的に抽出して照合し、それによって優れた検索精度を達成するために、新しい深層周囲-人分離学習(DSSL)モデルを提案します。周囲と人の分離と融合のメカニズムは、相互排除の制約の下で正確で効果的な周囲と人の分離を実現するために重要な役割を果たします。マルチモーダルおよびマルチグラニュラー情報を適切に利用して検索精度を高めるために、5つの多様なアライメントパラダイムが採用されています。 CUHK-PEDESで提案されたDSSLを評価するために、広範な実験が実行されます。CUHK-PEDESは、現在、テキストベースの人物検索タスクで唯一アクセス可能なデータセットです。 DSSLは、CUHK-PEDESで最先端のパフォーマンスを実現します。提案されたDSSLを実際のシナリオで適切に評価するために、実際のシナリオのテキストベースの人物再識別(RSTPReid)データセットが構築され、テキストベースの人物検索に関する将来の研究に役立てられます。
Many previous methods on text-based person retrieval tasks are devoted to learning a latent common space mapping, with the purpose of extracting modality-invariant features from both visual and textual modality. Nevertheless, due to the complexity of high-dimensional data, the unconstrained mapping paradigms are not able to properly catch discriminative clues about the corresponding person while drop the misaligned information. Intuitively, the information contained in visual data can be divided into person information (PI) and surroundings information (SI), which are mutually exclusive from each other. To this end, we propose a novel Deep Surroundings-person Separation Learning (DSSL) model in this paper to effectively extract and match person information, and hence achieve a superior retrieval accuracy. A surroundings-person separation and fusion mechanism plays the key role to realize an accurate and effective surroundings-person separation under a mutually exclusion constraint. In order to adequately utilize multi-modal and multi-granular information for a higher retrieval accuracy, five diverse alignment paradigms are adopted. Extensive experiments are carried out to evaluate the proposed DSSL on CUHK-PEDES, which is currently the only accessible dataset for text-base person retrieval task. DSSL achieves the state-of-the-art performance on CUHK-PEDES. To properly evaluate our proposed DSSL in the real scenarios, a Real Scenarios Text-based Person Reidentification (RSTPReid) dataset is constructed to benefit future research on text-based person retrieval, which will be publicly available.
updated: Sun Sep 12 2021 15:09:09 GMT+0000 (UTC)
published: Sun Sep 12 2021 15:09:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト