人間の識別は、イベントの検出、個人の追跡、および公安において重要なトピックです。顔の識別、人の再識別、歩行の識別など、人間の識別のために提案された多くの方法があります。通常、既存の方法では、クエリされた画像が主に画像ギャラリーセット(I2I)内の特定のIDに分類されます。これは、クエリのテキストによる説明または属性ギャラリーセットのみがさまざまなビデオ監視アプリケーション(A2IまたはI2A)で利用できるシナリオでは深刻に制限されます。ただし、モダリティのない識別、つまりスケーラブルな方法で設定されたギャラリー内のクエリの識別に向けられた取り組みはほとんどありません。この作業では、最初の試みを行い、スケーラブルな方法で一般的なゼロショット学習モデルとして、このような新しいモダリティフリーの人間識別(MFHIという名前)タスクを定式化します。一方、各アイデンティティの識別プロトタイプを学習することにより、視覚的モダリティとセマンティックモダリティを橋渡しすることができます。さらに、セマンティクスに基づく空間的注意が視覚モダリティに適用され、グローバルなカテゴリレベルとローカルの属性レベルの両方の識別力が高い表現が得られます。最後に、顔の識別と個人の再識別を含む2つの一般的な挑戦的な識別タスクに関する広範な実験グループを設計および実施し、モダリティのない人間の識別に関するさまざまな最先端の方法よりも優れていることを示します。 。
Human identification is an important topic in event detection, person tracking, and public security. There have been numerous methods proposed for human identification, such as face identification, person re-identification, and gait identification. Typically, existing methods predominantly classify a queried image to a specific identity in an image gallery set (I2I). This is seriously limited for the scenario where only a textual description of the query or an attribute gallery set is available in a wide range of video surveillance applications (A2I or I2A). However, very few efforts have been devoted towards modality-free identification, i.e., identifying a query in a gallery set in a scalable way. In this work, we take an initial attempt, and formulate such a novel Modality-Free Human Identification (named MFHI) task as a generic zero-shot learning model in a scalable way. Meanwhile, it is capable of bridging the visual and semantic modalities by learning a discriminative prototype of each identity. In addition, the semantics-guided spatial attention is enforced on visual modality to obtain representations with both high global category-level and local attribute-level discrimination. Finally, we design and conduct an extensive group of experiments on two common challenging identification tasks, including face identification and person re-identification, demonstrating that our method outperforms a wide variety of state-of-the-art methods on modality-free human identification.