arXiv reaDer
動作中のトランスフォーマー:弱く監視されたアクションセグメンテーション
Transformers in Action:Weakly Supervised Action Segmentation
ビデオアクションセグメンテーションタスクは、トランスクリプト監視などの弱い形式の監視の下で定期的に調査されます。この場合、アクションのリストは、高密度のフレーム単位のラベルよりも簡単に取得できます。この定式化では、アクション遷移ポイント、長いシーケンス長、およびフレームのコンテキスト化に重点が置かれているため、タスクはシーケンスモデリングアプローチにさまざまな課題を提示し、トランスフォーマーに適したタスクにします。トランスフォーマーを線形にスケーリングできるようにする開発を前提として、顕著なアクション遷移領域に焦点を当てた注意メカニズムを使用して、同等のRNNベースのモデルよりもアクションアライメントの精度を向上させるためにトランスフォーマーを適用する方法を示します。さらに、推論時のトランスクリプト選択に最近焦点が当てられていることを考えると、推論時にトランスクリプトをより迅速に選択するための補足的なトランスクリプト埋め込みアプローチを提案します。さらに、その後、このアプローチが全体的なセグメンテーションパフォーマンスをどのように改善できるかを示します。最後に、ベンチマークデータセット全体で提案された方法を評価して、トランスフォーマーの適用性と、このビデオ駆動の弱教師ありタスクでのトランスクリプト選択の重要性をよりよく理解します。
The video action segmentation task is regularly explored under weaker forms of supervision, such as transcript supervision, where a list of actions is easier to obtain than dense frame-wise labels. In this formulation, the task presents various challenges for sequence modeling approaches due to the emphasis on action transition points, long sequence lengths, and frame contextualization, making the task well-posed for transformers. Given developments enabling transformers to scale linearly, we demonstrate through our architecture how they can be applied to improve action alignment accuracy over the equivalent RNN-based models with the attention mechanism focusing around salient action transition regions. Additionally, given the recent focus on inference-time transcript selection, we propose a supplemental transcript embedding approach to select transcripts more quickly at inference-time. Furthermore, we subsequently demonstrate how this approach can also improve the overall segmentation performance. Finally, we evaluate our proposed methods across the benchmark datasets to better understand the applicability of transformers and the importance of transcript selection on this video-driven weakly-supervised task.
updated: Fri Jan 14 2022 21:15:58 GMT+0000 (UTC)
published: Fri Jan 14 2022 21:15:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト