arXiv reaDer
時間的活動検出のための分類ラベルを使用した自己監視事前トレーニング
Self-supervised Pretraining with Classification Labels for Temporal Activity Detection
時間的アクティビティ検出は、アクティビティ分類(つまり、アクティビティ認識)で行われるビデオレベルの予測とは対照的に、フレームごとのアクティビティクラスを予測することを目的としています。検出に必要な高価なフレームレベルの注釈のため、検出データセットの規模は制限されています。したがって、一般に、時間的活動の検出に関する以前の研究は、大規模な分類データセット(Kinetics-400など)で事前にトレーニングされた分類モデルを微調整することに頼っています。ただし、このような事前トレーニング済みモデルは、事前トレーニングとダウンストリームの微調整タスクの間に差異があるため、ダウンストリームの検出パフォーマンスには理想的ではありません。この作品は、フレームレベルの疑似ラベル、マルチアクションフレーム、およびアクションセグメントを導入することにより、分類ラベルを活用してそのような不一致を軽減する検出のための新しい自己監視事前トレーニング方法を提案します。提案された自己監視検出タスクで事前トレーニングされたモデルが、シャレードやMultiTHUMOSなどの複数の挑戦的なアクティビティ検出ベンチマークでの以前の作業よりも優れていることを示します。私たちの広範なアブレーションは、活動検出のために提案されたモデルをいつどのように使用するかについての洞察をさらに提供します。コードとモデルはオンラインでリリースされます。
Temporal Activity Detection aims to predict activity classes per frame, in contrast to video-level predictions as done in Activity Classification (i.e., Activity Recognition). Due to the expensive frame-level annotations required for detection, the scale of detection datasets is limited. Thus, commonly, previous work on temporal activity detection resorts to fine-tuning a classification model pretrained on large-scale classification datasets (e.g., Kinetics-400). However, such pretrained models are not ideal for downstream detection performance due to the disparity between the pretraining and the downstream fine-tuning tasks. This work proposes a novel self-supervised pretraining method for detection leveraging classification labels to mitigate such disparity by introducing frame-level pseudo labels, multi-action frames, and action segments. We show that the models pretrained with the proposed self-supervised detection task outperform prior work on multiple challenging activity detection benchmarks, including Charades and MultiTHUMOS. Our extensive ablations further provide insights on when and how to use the proposed models for activity detection. Code and models will be released online.
updated: Fri Nov 26 2021 18:59:28 GMT+0000 (UTC)
published: Fri Nov 26 2021 18:59:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト