画像からの正確な手関節の検出は、コンピュータビジョンやヒューマンコンピュータインタラクションの多くのアプリケーションに不可欠な基本的なトピックです。この論文は、シリアルパラレルマルチスケール特徴融合を使用することにより、単一のマークされていない画像から手関節を検出するための2段階ネットワークを提示する。ステージIでは、手領域は事前にトレーニングされたネットワークによって配置され、検出された各手領域の特徴は、浅い空間手特徴表現モジュールによって抽出されます。次に、抽出された手の特徴は、「マルチスケール特徴融合」(MSFF)と呼ばれる同様の構造を持つ直列接続された特徴抽出モジュールで構成されるステージIIに送られます。 MSFFには、初期の手関節ヒートマップを生成する並列マルチスケール特徴抽出ブランチが含まれています。次に、最初のヒートマップは、手の関節間の解剖学的関係によって相互に強化されます。 5つの手関節データセットの実験結果は、提案されたネットワークが最先端の方法を上回っていることを示しています。
Accurate hand joints detection from images is a fundamental topic which is essential for many applications in computer vision and human computer interaction. This paper presents a two stage network for hand joints detection from single unmarked image by using serial-parallel multi-scale feature fusion. In stage I, the hand regions are located by a pre-trained network, and the features of each detected hand region are extracted by a shallow spatial hand features representation module. The extracted hand features are then fed into stage II, which consists of serially connected feature extraction modules with similar structures, called "multi-scale feature fusion" (MSFF). A MSFF contains parallel multi-scale feature extraction branches, which generate initial hand joint heatmaps. The initial heatmaps are then mutually reinforced by the anatomic relationship between hand joints. The experimental results on five hand joints datasets show that the proposed network overperforms the state-of-the-art methods.