arXiv reaDer
Towards Train-Test Consistency for Semi-supervised Temporal Action Localization
 最近、弱教師付き時間アクションローカリゼーション(WTAL)が詳細に研究されていますが、弱教師付きモデルと完全教師付きモデルの間にはまだ大きなギャップがあります。いくつかの例の時間的境界に注釈を付け、それらを利用してWTALモデルがアクションをより良く検出できるようにすることは、実用的で直感的です。ただし、アクションのローカリゼーション戦略のトレインテストの不一致により、WTALモデルはさらなる改善のために半監視を活用できません。トレーニング時に、注意または複数インスタンスの学習を使用して、ビデオレベルの分類のために各スニペットの予測を集計します。テスト時には、最初に時間をかけてアクションスコアシーケンスを取得し、次に、固定しきい値よりも高いスコアのセグメントを切り捨て、アクションセグメントを後処理します。一貫性のない戦略により、トレーニング時の時間境界アノテーションを使用してアクションローカリゼーションモデルを明示的に監視することが難しくなります。この論文では、Train-Test Consistent framework、TTC-Locを提案します。トレーニング時間とテスト時間の両方で、TTC-Locはアクションクラスのスコアと予測しきい値を比較することでアクションをローカライズし、セミスーパービジョンでトレーニングできるようにします。トレーニングとテストの不一致を修正することにより、ビデオレベルのラベルのみがトレーニングに提供される場合、TTC-LocはTHUMOS'14、ActivityNet 1.2および1.3の最新のパフォーマンスを大幅に上回ります。クラスごとに1つのビデオのみの完全な注釈と他のビデオのビデオレベルのラベルにより、TTC-Locはパフォーマンスをさらに向上させ、THUMOSの14で33.4%mAP(IoUしきい値0.5)を達成します。
Recently, Weakly-supervised Temporal Action Localization (WTAL) has been densely studied but there is still a large gap between weakly-supervised models and fully-supervised models. It is practical and intuitive to annotate temporal boundaries of a few examples and utilize them to help WTAL models better detect actions. However, the train-test discrepancy of action localization strategy prevents WTAL models from leveraging semi-supervision for further improvement. At training time, attention or multiple instance learning is used to aggregate predictions of each snippet for video-level classification; at test time, they first obtain action score sequences over time, then truncate segments of scores higher than a fixed threshold, and post-process action segments. The inconsistent strategy makes it hard to explicitly supervise the action localization model with temporal boundary annotations at training time. In this paper, we propose a Train-Test Consistent framework, TTC-Loc. In both training and testing time, our TTC-Loc localizes actions by comparing scores of action classes and predicted threshold, which enables it to be trained with semi-supervision. By fixing the train-test discrepancy, our TTC-Loc significantly outperforms the state-of-the-art performance on THUMOS'14, ActivityNet 1.2 and 1.3 when only video-level labels are provided for training. With full annotations of only one video per class and video-level labels for the other videos, our TTC-Loc further boosts the performance and achieves 33.4% mAP (IoU threshold 0.5) on THUMOS's 14.
updated: Mon Mar 23 2020 02:56:39 GMT+0000 (UTC)
published: Thu Oct 24 2019 17:00:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト