単眼画像または2Dポーズのシーケンスからの手話認識は、2Dデータから3D情報を推測するのが難しいだけでなく、情報のシーケンス間の時間的関係のために、挑戦的な分野です。さらに、多種多様な標識と、実稼働環境で新しい標識を追加する必要性が絶えずあるため、従来の分類手法を使用することは不可能です。ボディキーポイントシーケンスから豊富な表現を学習し、ベクトル埋め込み間のより良い比較を可能にすることを実証する、新しい対照トランスフォーマーベースのモデルを提案します。これにより、これらの手法を適用して、分類や翻訳などのワンショットまたは数ショットのタスクを実行できます。実験は、モデルがうまく一般化でき、トレーニングプロセスでは見られなかったサインクラスに対して競争力のある結果を達成できることを示しました。
Sign language recognition from sequences of monocular images or 2D poses is a challenging field, not only due to the difficulty to infer 3D information from 2D data, but also due to the temporal relationship between the sequences of information. Additionally, the wide variety of signs and the constant need to add new ones on production environments makes it infeasible to use traditional classification techniques. We propose a novel Contrastive Transformer-based model, which demonstrate to learn rich representations from body key points sequences, allowing better comparison between vector embedding. This allows us to apply these techniques to perform one-shot or few-shot tasks, such as classification and translation. The experiments showed that the model could generalize well and achieved competitive results for sign classes never seen in the training process.