この論文では、まずビデオベースのアプローチによる歩行者属性認識の問題に取り組みます。課題は、主に空間的および時間的モデリングと、効果的かつ動的な歩行者表現のためにそれらを統合する方法にあります。この問題を解決するために、従来のニューラルネットワークと時間的注意戦略に基づく新しいマルチタスクモデルを提案します。公開されているデータセットはまれなので、属性定義が拡張された2つの新しい大規模なビデオデータセットが提示され、ビデオベースの歩行者属性認識方法と提案された新しいネットワークアーキテクチャの両方の有効性が実証されています。 2つのデータセットは、http://irip.buaa.edu.cn/mars_duke_attributes/index.htmlで公開されています。
In this paper, we first tackle the problem of pedestrian attribute recognition by video-based approach. The challenge mainly lies in spatial and temporal modeling and how to integrating them for effective and dynamic pedestrian representation. To solve this problem, a novel multi-task model based on the conventional neural network and temporal attention strategy is proposed. Since publicly available dataset is rare, two new large-scale video datasets with expanded attribute definition are presented, on which the effectiveness of both video-based pedestrian attribute recognition methods and the proposed new network architecture is well demonstrated. The two datasets are published on http://irip.buaa.edu.cn/mars_duke_attributes/index.html.