このホワイトペーパーでは、Transformerを使用してキーポイントの検出とインスタンスの関連付けを解決する新しい方法を紹介します。ボトムアップの複数人のポーズ推定モデルの場合、キーポイントを検出し、キーポイント間の関連情報を学習する必要があります。これらの問題はTransformerで完全に解決できると私たちは主張します。具体的には、Transformerの自己注意は、場所の任意のペア間の依存関係を測定します。これにより、キーポイントのグループ化に関連付け情報を提供できます。ただし、ナイーブな注意パターンはまだ主観的に制御されていないため、キーポイントがそれらが属するインスタンスに常に対応するという保証はありません。これに対処するために、複数人のキーポイントの検出とインスタンスの関連付けのための自己注意を監視する新しいアプローチを提案します。インスタンスマスクを使用して自己注意を監視し、インスタンスを認識することで、事前定義されたオフセットベクトルフィールドを使用したり、CNNベースのボトムアップモデルのように埋め込んだりすることなく、ペアワイズ注意スコアに基づいて、検出されたキーポイントを対応するインスタンスに割り当てることができます。 。私たちの方法の追加の利点は、任意の数の人々のインスタンスセグメンテーション結果を教師あり注意マトリックスから直接取得できることです。これにより、ピクセル割り当てパイプラインが簡素化されます。 COCOマルチパーソンキーポイント検出チャレンジとパーソンインスタンスセグメンテーションタスクに関する実験は、提案された方法の有効性と単純さを示し、特定の目的のために自己注意行動を制御するための有望な方法を示しています。
This paper presents a new method to solve keypoint detection and instance association by using Transformer. For bottom-up multi-person pose estimation models, they need to detect keypoints and learn associative information between keypoints. We argue that these problems can be entirely solved by Transformer. Specifically, the self-attention in Transformer measures dependencies between any pair of locations, which can provide association information for keypoints grouping. However, the naive attention patterns are still not subjectively controlled, so there is no guarantee that the keypoints will always attend to the instances to which they belong. To address it we propose a novel approach of supervising self-attention for multi-person keypoint detection and instance association. By using instance masks to supervise self-attention to be instance-aware, we can assign the detected keypoints to their corresponding instances based on the pairwise attention scores, without using pre-defined offset vector fields or embedding like CNN-based bottom-up models. An additional benefit of our method is that the instance segmentation results of any number of people can be directly obtained from the supervised attention matrix, thereby simplifying the pixel assignment pipeline. The experiments on the COCO multi-person keypoint detection challenge and person instance segmentation task demonstrate the effectiveness and simplicity of the proposed method and show a promising way to control self-attention behavior for specific purposes.