歩行者の属性認識は、ビデオ監視の分野で新たな研究テーマになっています。特定の属性の存在を予測するには、その属性に関連する地域をローカライズする必要があります。ただし、このタスクでは、領域注釈は使用できません。これらの属性関連の領域を切り分ける方法は、依然として困難です。既存の方法では、属性に依存しない視覚的注意またはヒューリスティックな身体部位のローカライズメカニズムを適用して、ローカルフィーチャ表現を強化し、ローカルフィーチャエリアを定義するために属性を使用することを怠っていました。柔軟な属性ローカリゼーションモジュール(ALM)を提案して、最も差別的な地域を適応的に発見し、複数のレベルで各属性の地域的特徴を学習します。さらに、機能ピラミッドアーキテクチャも導入され、高レベルのセマンティックガイダンスにより、低レベルでの属性固有のローカリゼーションが強化されます。提案されたフレームワークは、追加の領域注釈を必要とせず、マルチレベルの深い監督でエンドツーエンドでトレーニングできます。広範な実験により、提案された方法が、PETA、RAP、PA-100Kを含む3つの歩行者属性データセットで最先端の結果を達成することが示されています。
Pedestrian attribute recognition has been an emerging research topic in the area of video surveillance. To predict the existence of a particular attribute, it is demanded to localize the regions related to the attribute. However, in this task, the region annotations are not available. How to carve out these attribute-related regions remains challenging. Existing methods applied attribute-agnostic visual attention or heuristic body-part localization mechanisms to enhance the local feature representations, while neglecting to employ attributes to define local feature areas. We propose a flexible Attribute Localization Module (ALM) to adaptively discover the most discriminative regions and learns the regional features for each attribute at multiple levels. Moreover, a feature pyramid architecture is also introduced to enhance the attribute-specific localization at low-levels with high-level semantic guidance. The proposed framework does not require additional region annotations and can be trained end-to-end with multi-level deep supervision. Extensive experiments show that the proposed method achieves state-of-the-art results on three pedestrian attribute datasets, including PETA, RAP, and PA-100K.