最先端の人間の姿勢推定(HPE)モデルから得られた結果は、低解像度の人々を評価すると急速に低下しますが、超解像(SR)を使用してこの影響を軽減できますか?さまざまなSRアプローチを使用して、2つの低解像度データセットを強化し、オブジェクトとキーポイント検出器の両方のパフォーマンスの変化と、エンドツーエンドのHPE結果を評価しました。以下の所見に留意します。まず、元々低解像度(ピクセル単位のセグメンテーション領域)で描かれていた人々の場合、SRを適用すると、キーポイント検出のパフォーマンスが向上することがわかりました。第2に、得られるキーポイント検出パフォーマンスは、SRを適用する前の元の画像の人物のピクセル数に依存します。初期セグメンテーション領域が小さい人にSRを適用すると、キーポイント検出のパフォーマンスは向上しましたが、これが大きくなると低下します。これに対処するために、新しいMask-RCNNアプローチを導入しました。これは、セグメンテーション領域のしきい値を利用して、キーポイント検出ステップでSRを使用するタイミングを決定します。このアプローチは、各HPEパフォーマンスメトリックの低解像度データセットで最良の結果を達成しました。
The results obtained from state of the art human pose estimation (HPE) models degrade rapidly when evaluating people of a low resolution, but can super resolution (SR) be used to help mitigate this effect? By using various SR approaches we enhanced two low resolution datasets and evaluated the change in performance of both an object and keypoint detector as well as end-to-end HPE results. We remark the following observations. First we find that for people who were originally depicted at a low resolution (segmentation area in pixels), their keypoint detection performance would improve once SR was applied. Second, the keypoint detection performance gained is dependent on that persons pixel count in the original image prior to any application of SR; keypoint detection performance was improved when SR was applied to people with a small initial segmentation area, but degrades as this becomes larger. To address this we introduced a novel Mask-RCNN approach, utilising a segmentation area threshold to decide when to use SR during the keypoint detection step. This approach achieved the best results on our low resolution datasets for each HPE performance metrics.