アクション品質評価(AQA)は、アクションを理解するために重要であり、タスクを解決することは、微妙な視覚的な違いのために固有の課題をもたらします。既存の最先端の方法は、通常、スコアの回帰またはランク付けのために全体的なビデオ表現に依存しています。これにより、一般化が制限され、クラス内のきめ細かい変化がキャプチャされます。上記の制限を克服するために、全体論的特徴を時間的部分レベル表現に分解する時間的解析トランスフォーマーを提案します。具体的には、学習可能なクエリのセットを利用して、特定のアクションのアトミックな時間的パターンを表します。私たちのデコードプロセスは、フレーム表現を固定数の時間的に順序付けられたパーツ表現に変換します。品質スコアを取得するために、パーツ表現に基づく最先端の対照回帰を採用しています。既存のAQAデータセットは時間的な部分レベルのラベルまたはパーティションを提供しないため、デコーダーのクロスアテンション応答に関する2つの新しい損失関数を提案します。クロスアテンションの時間的順序を満たすための学習可能なクエリを保証するランキング損失とスパース性損失です。パーツの表現をより差別的にするように促します。広範な実験は、提案された方法が3つの公開AQAベンチマークでの以前の作業をかなりの差で上回っていることを示しています。
Action Quality Assessment(AQA) is important for action understanding and resolving the task poses unique challenges due to subtle visual differences. Existing state-of-the-art methods typically rely on the holistic video representations for score regression or ranking, which limits the generalization to capture fine-grained intra-class variation. To overcome the above limitation, we propose a temporal parsing transformer to decompose the holistic feature into temporal part-level representations. Specifically, we utilize a set of learnable queries to represent the atomic temporal patterns for a specific action. Our decoding process converts the frame representations to a fixed number of temporally ordered part representations. To obtain the quality score, we adopt the state-of-the-art contrastive regression based on the part representations. Since existing AQA datasets do not provide temporal part-level labels or partitions, we propose two novel loss functions on the cross attention responses of the decoder: a ranking loss to ensure the learnable queries to satisfy the temporal order in cross attention and a sparsity loss to encourage the part representations to be more discriminative. Extensive experiments show that our proposed method outperforms prior work on three public AQA benchmarks by a considerable margin.