アクションセグメンテーションタスクのアルゴリズムは、通常、時間モデルを使用して、1分間の毎日のアクティビティの各フレームでどのアクションが発生しているかを予測します。最近の研究では、シーケンシャルデータの要素間の関係をモデル化する際のTransformerの可能性が示されています。ただし、トランスフォーマーをアクションセグメンテーションタスクに直接適用する場合、小さなトレーニングセットでの誘導バイアスの欠如、長い入力シーケンスの処理の不足、間の時間的関係を利用するためのデコーダーアーキテクチャの制限など、いくつかの大きな懸念があります。初期予測を改善するための複数のアクションセグメント。これらの懸念に対処するために、ASFormerという名前のアクションセグメンテーションタスク用の効率的なTransformerベースのモデルを設計します。3つの特徴があります。(i)機能の局所性が高いため、ローカル接続の帰納的事前確率を明示的に取り入れます。これは、信頼できるスコープ内に仮説空間を制約し、アクションセグメンテーションタスクが小さなトレーニングセットで適切なターゲット関数を学習するのに役立ちます。 (ii)長い入力シーケンスを効率的に処理する事前定義された階層表現パターンを適用します。 (iii)エンコーダーからの初期予測を改善するために、デコーダーを慎重に設計します。 3つの公開データセットでの広範な実験は、私たちの方法の有効性を示しています。コードはhttps://github.com/ChinaYi/ASFormerで入手できます。
Algorithms for the action segmentation task typically use temporal models to predict what action is occurring at each frame for a minute-long daily activity. Recent studies have shown the potential of Transformer in modeling the relations among elements in sequential data. However, there are several major concerns when directly applying the Transformer to the action segmentation task, such as the lack of inductive biases with small training sets, the deficit in processing long input sequence, and the limitation of the decoder architecture to utilize temporal relations among multiple action segments to refine the initial predictions. To address these concerns, we design an efficient Transformer-based model for action segmentation task, named ASFormer, with three distinctive characteristics: (i) We explicitly bring in the local connectivity inductive priors because of the high locality of features. It constrains the hypothesis space within a reliable scope, and is beneficial for the action segmentation task to learn a proper target function with small training sets. (ii) We apply a pre-defined hierarchical representation pattern that efficiently handles long input sequences. (iii) We carefully design the decoder to refine the initial predictions from the encoder. Extensive experiments on three public datasets demonstrate that effectiveness of our methods. Code is available at https://github.com/ChinaYi/ASFormer.