トリミングされていないビデオのTemporalAction Localization(TAL)の最先端のアーキテクチャでは、RGBモダリティとフローモダリティのみが考慮されており、情報が豊富なオーディオモダリティはまったく活用されていません。オーディオフュージョンは、トリミングされた(クリップレベルの)アクション認識の関連するが間違いなく簡単な問題について調査されました。ただし、TALには独自の課題があります。この論文では、TALのためのシンプルで効果的な融合ベースのアプローチを提案します。私たちの知る限り、私たちの仕事は、教師ありTALのオーディオとビデオのモダリティを共同で検討する最初の仕事です。私たちは実験的に、私たちのスキームが最先端のビデオのみのTALアプローチのパフォーマンスを一貫して改善することを示しています。具体的には、大規模なベンチマークデータセットであるActivityNet-1.3(54.34 mAP@0.5)およびTHUMOS14(57.18 mAP@0.5)で新しい最先端のパフォーマンスを実現するのに役立ちます。私たちの実験には、複数の融合スキーム、モダリティの組み合わせ、およびTALアーキテクチャを含むアブレーションが含まれます。コード、モデル、および関連データは、https://github.com/skelemoa/tal-hmoで入手できます。
State of the art architectures for untrimmed video Temporal Action Localization (TAL) have only considered RGB and Flow modalities, leaving the information-rich audio modality totally unexploited. Audio fusion has been explored for the related but arguably easier problem of trimmed (clip-level) action recognition. However, TAL poses a unique set of challenges. In this paper, we propose simple but effective fusion-based approaches for TAL. To the best of our knowledge, our work is the first to jointly consider audio and video modalities for supervised TAL. We experimentally show that our schemes consistently improve performance for state of the art video-only TAL approaches. Specifically, they help achieve new state of the art performance on large-scale benchmark datasets - ActivityNet-1.3 (54.34 mAP@0.5) and THUMOS14 (57.18 mAP@0.5). Our experiments include ablations involving multiple fusion schemes, modality combinations and TAL architectures. Our code, models and associated data are available at https://github.com/skelemoa/tal-hmo.