arXiv reaDer
HGR-Net:手ジェスチャーのセグメンテーションと認識のための融合ネットワーク
HGR-Net: A Fusion Network for Hand Gesture Segmentation and Recognition
 HGR-Netと呼ばれるハンドジェスチャのロバストな認識のための2段階畳み込みニューラルネットワーク(CNN)アーキテクチャを提案します。最初の段階は正確なセマンティックセグメンテーションを実行して手の領域を決定し、2番目の段階はジェスチャを識別します。セグメンテーションステージアーキテクチャは、完全な畳み込み残余ネットワークと空間的ピラミッドプーリングの組み合わせに基づいています。セグメンテーションサブネットワークは深度情報なしでトレーニングされますが、照明の変動や複雑な背景などの課題に対して特に堅牢です。認識段階では、2ストリームCNNを展開します。これは、分類の前に完全に接続されたレイヤーで深い表現を組み合わせることで、赤緑青とセグメント化された画像からの情報を融合します。パブリックデータセットに関する広範な実験により、トレーニング時間、実行時間、およびモデルサイズの一部で、静的な手のジェスチャーのセグメンテーションと認識において、当社のアーキテクチャが最先端のパフォーマンスとほぼ同等のパフォーマンスを達成することが示されています。この方法は、フレームあたり平均23ミリ秒で動作できます。
We propose a two-stage convolutional neural network (CNN) architecture for robust recognition of hand gestures, called HGR-Net, where the first stage performs accurate semantic segmentation to determine hand regions, and the second stage identifies the gesture. The segmentation stage architecture is based on the combination of fully convolutional residual network and atrous spatial pyramid pooling. Although the segmentation sub-network is trained without depth information, it is particularly robust against challenges such as illumination variations and complex backgrounds. The recognition stage deploys a two-stream CNN, which fuses the information from the red-green-blue and segmented images by combining their deep representations in a fully connected layer before classification. Extensive experiments on public datasets show that our architecture achieves almost as good as state-of-the-art performance in segmentation and recognition of static hand gestures, at a fraction of training time, run time, and model size. Our method can operate at an average of 23 ms per frame.
updated: Sat Dec 28 2019 17:43:46 GMT+0000 (UTC)
published: Thu Jun 14 2018 17:15:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト