arXiv reaDer
ActionFormer: トランスフォーマーによるアクションの瞬間のローカライズ
ActionFormer: Localizing Moments of Actions with Transformers
自己注意ベースの Transformer モデルは、画像の分類とオブジェクトの検出、さらに最近ではビデオの理解で印象的な結果を示しています。この成功に触発されて、ビデオでの一時的なアクションのローカリゼーションのための Transformer ネットワークのアプリケーションを調査します。この目的のために、アクション提案を使用したり、事前定義されたアンカー ウィンドウに依存したりすることなく、アクションを時間内に特定し、それらのカテゴリを 1 回のショットで認識するシンプルでありながら強力なモデルである ActionFormer を紹介します。 ActionFormer は、マルチスケールの特徴表現と局所的な自己注意を組み合わせ、軽量のデコーダーを使用してすべての瞬間を分類し、対応するアクションの境界を推定します。この組織化された設計により、以前の作業が大幅に改善されることが示されています。付加機能がなければ、ActionFormer は THUMOS14 で tIoU=0.5 で 71.0% の mAP を達成し、最高の以前のモデルを 14.1 絶対パーセント ポイント上回りました。さらに、ActionFormer は、ActivityNet 1.3 (36.6% 平均 mAP) および EPIC-Kitchens 100 (+13.5% 平均 mAP) で強力な結果を示しています。コードは http://github.com/happyharrycn/actionformer_release で入手できます。
Self-attention based Transformer models have demonstrated impressive results for image classification and object detection, and more recently for video understanding. Inspired by this success, we investigate the application of Transformer networks for temporal action localization in videos. To this end, we present ActionFormer -- a simple yet powerful model to identify actions in time and recognize their categories in a single shot, without using action proposals or relying on pre-defined anchor windows. ActionFormer combines a multiscale feature representation with local self-attention, and uses a light-weighted decoder to classify every moment in time and estimate the corresponding action boundaries. We show that this orchestrated design results in major improvements upon prior works. Without bells and whistles, ActionFormer achieves 71.0% mAP at tIoU=0.5 on THUMOS14, outperforming the best prior model by 14.1 absolute percentage points. Further, ActionFormer demonstrates strong results on ActivityNet 1.3 (36.6% average mAP) and EPIC-Kitchens 100 (+13.5% average mAP over prior works). Our code is available at http://github.com/happyharrycn/actionformer_release.
updated: Sun Aug 28 2022 19:46:29 GMT+0000 (UTC)
published: Wed Feb 16 2022 08:34:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト