人間のジェスチャ認識は、コンピュータビジョンの分野で大きな注目を集めています。ただし、ジェスチャ認識のパフォーマンスは、背景やパフォーマーの服装など、ジェスチャに関係のないいくつかの要因によって常に影響を受けます。したがって、手/腕の領域に焦点を当てることは、ジェスチャ認識にとって重要です。一方、より適応性の高いアーキテクチャ検索ネットワーク構造は、ネットワークのさまざまな段階で機能の多様性を向上させるため、Resnetのようなブロック固定構造よりもパフォーマンスが向上します。この論文では、ジェスチャ認識のためのアーキテクチャ再構築3Dネットワーク(RAAR3DNet)による地域の注目を提案します。ネットワークの初期、中期、後期の機能の形状と表現能力が異なるため、固定されたInceptionモジュールを、Neural Architecture Search(NAS)を介してネットワークを介して自動的に再構築された構造に置き換えます。これにより、ネットワークは、さまざまなレイヤーでさまざまなレベルの特徴表現をより適応的にキャプチャできます。一方、動的静的アテンション(DSA)と呼ばれる積み重ね可能な地域アテンションモジュールも設計します。これは、ガウスガイダンスヒートマップと動的モーションマップを導出して、手/腕の領域とモーション情報をそれぞれ空間領域と時間ドメインで強調表示します。最近の2つの大規模なRGB-Dジェスチャデータセットに関する広範な実験により、提案された方法の有効性が検証され、最先端の方法よりも優れていることが示されています。私たちのメソッドのコードは、https://github.com/zhoubenjia/RAAR3DNetで入手できます。
Human gesture recognition has drawn much attention in the area of computer vision. However, the performance of gesture recognition is always influenced by some gesture-irrelevant factors like the background and the clothes of performers. Therefore, focusing on the regions of hand/arm is important to the gesture recognition. Meanwhile, a more adaptive architecture-searched network structure can also perform better than the block-fixed ones like Resnet since it increases the diversity of features in different stages of the network better. In this paper, we propose a regional attention with architecture-rebuilt 3D network (RAAR3DNet) for gesture recognition. We replace the fixed Inception modules with the automatically rebuilt structure through the network via Neural Architecture Search (NAS), owing to the different shape and representation ability of features in the early, middle, and late stage of the network. It enables the network to capture different levels of feature representations at different layers more adaptively. Meanwhile, we also design a stackable regional attention module called dynamic-static Attention (DSA), which derives a Gaussian guidance heatmap and dynamic motion map to highlight the hand/arm regions and the motion information in the spatial and temporal domains, respectively. Extensive experiments on two recent large-scale RGB-D gesture datasets validate the effectiveness of the proposed method and show it outperforms state-of-the-art methods. The codes of our method are available at: https://github.com/zhoubenjia/RAAR3DNet.