歩行認識は、最も有望なビデオベースの生体認証技術の 1 つです。シルエットのエッジと動きは最も有益な特徴であり、以前の研究ではそれらを別々に調査し、注目すべき結果を達成しました。ただし、遮蔽や視野角の変化により、歩行認識パフォーマンスは、事前に定義された空間セグメンテーション戦略の影響を受けることがよくあります。さらに、従来の時間プーリングでは通常、歩行における特有の時間情報が無視されます。前述の問題に対処するために、我々は、適応構造化空間表現を効果的に抽出し、マルチスケールの時間情報を自然に集約できる、GaitASMS と呼ばれる新しい歩行認識フレームワークを提案します。適応構造化表現抽出モジュール (ASRE) は、適応エッジ マスクを使用してシルエットのエッジを分離し、意味論的潜在空間内の表現を最大化します。さらに、マルチスケール時間集約モジュール (MSTA) は、時間的に集約された構造により、長短範囲の時間情報の効果的なモデリングを実現します。さらに、長期オクルージョンのサンプル空間を強化し、モデルの一般化を強化するために、ランダム マスクと呼ばれる新しいデータ拡張を提案します。 2 つのデータセットに対して行われた広範な実験により、特に複雑なシーン、つまり BG と CL において、提案された方法の競合上の利点が実証されました。 CASIA-B データセットでは、GaitASMS は 93.5% の平均精度を達成し、BG と CL でランク 1 精度のベースラインをそれぞれ 3.4% と 6.3% 上回っています。アブレーション実験では、ASRE と MSTA の有効性が実証されています。
Gait recognition is one of the most promising video-based biometric technologies. The edge of silhouettes and motion are the most informative feature and previous studies have explored them separately and achieved notable results. However, due to occlusions and variations in viewing angles, their gait recognition performance is often affected by the predefined spatial segmentation strategy. Moreover, traditional temporal pooling usually neglects distinctive temporal information in gait. To address the aforementioned issues, we propose a novel gait recognition framework, denoted as GaitASMS, which can effectively extract the adaptive structured spatial representations and naturally aggregate the multi-scale temporal information. The Adaptive Structured Representation Extraction Module (ASRE) separates the edge of silhouettes by using the adaptive edge mask and maximizes the representation in semantic latent space. Moreover, the Multi-Scale Temporal Aggregation Module (MSTA) achieves effective modeling of long-short-range temporal information by temporally aggregated structure. Furthermore, we propose a new data augmentation, denoted random mask, to enrich the sample space of long-term occlusion and enhance the generalization of the model. Extensive experiments conducted on two datasets demonstrate the competitive advantage of proposed method, especially in complex scenes, i.e. BG and CL. On the CASIA-B dataset, GaitASMS achieves the average accuracy of 93.5% and outperforms the baseline on rank-1 accuracies by 3.4% and 6.3%, respectively, in BG and CL. The ablation experiments demonstrate the effectiveness of ASRE and MSTA.