DirectPoseと呼ばれる、最初の直接的なエンドツーエンドのマルチパーソンポーズ推定フレームワークを提案します。ターゲットの境界ボックスの2つのコーナーを直接回帰する最近のアンカーフリーオブジェクト検出器に触発され、提案されたフレームワークは、未加工の入力画像からすべてのインスタンスのインスタンス対応キーポイントを直接予測し、ボトムアップでのヒューリスティックグループ化の必要性を排除しますトップダウン方式のメソッドまたはバウンディングボックスの検出とRoI操作。また、このエンドツーエンドのフレームワークでの畳み込み機能と予測間のアライメントの欠如という主な困難を克服する、新しいキーポイントアライメント(KPAlign)メカニズムも提案します。 KPAlignは、フレームワークをエンドツーエンドでトレーニング可能な状態に保ちながら、フレームワークのパフォーマンスを大幅に改善します。唯一のポストプロセッシング非最大抑制(NMS)を使用すると、提案されたフレームワークは、1回のショットで境界ボックスの有無にかかわらず複数人のキーポイントを検出できます。実験では、ボトムアップ方式とトップダウン方式の両方で、エンドツーエンドのパラダイムが以前の強力なベースラインよりも競争力のある、または優れたパフォーマンスを達成できることを実証しています。エンドツーエンドのアプローチが、人間の姿勢推定タスクに新しい視点を提供できることを願っています。
We propose the first direct end-to-end multi-person pose estimation framework, termed DirectPose. Inspired by recent anchor-free object detectors, which directly regress the two corners of target bounding-boxes, the proposed framework directly predicts instance-aware keypoints for all the instances from a raw input image, eliminating the need for heuristic grouping in bottom-up methods or bounding-box detection and RoI operations in top-down ones. We also propose a novel Keypoint Alignment (KPAlign) mechanism, which overcomes the main difficulty: lack of the alignment between the convolutional features and predictions in this end-to-end framework. KPAlign improves the framework's performance by a large margin while still keeping the framework end-to-end trainable. With the only postprocessing non-maximum suppression (NMS), our proposed framework can detect multi-person keypoints with or without bounding-boxes in a single shot. Experiments demonstrate that the end-to-end paradigm can achieve competitive or better performance than previous strong baselines, in both bottom-up and top-down methods. We hope that our end-to-end approach can provide a new perspective for the human pose estimation task.