トリミングされていないビデオでのアクションの検出は、小規模なクローズド クラスのセットに限定されるべきではありません。事前トレーニング済みの画像とテキストの共同埋め込みを利用した、オープン語彙の一時的なアクション検出のためのシンプルでありながら効果的な戦略を提示します。ビデオではなく静的画像でトレーニングされているにもかかわらず、画像とテキストの同時埋め込みにより、完全に監視されたモデルと競合するオープン語彙のパフォーマンスが可能になることを示しています。オプティカル フロー ベースの機能やオーディオなどの他のモダリティなど、ローカル モーションをエンコードする機能を使用してイメージ テキスト機能をアンサンブルすることで、パフォーマンスをさらに改善できることを示します。さらに、ActivityNet データ セットのより合理的なオープン語彙評価設定を提案します。ここでは、カテゴリ分割は、ランダムな割り当てではなく類似性に基づいています。
Detecting actions in untrimmed videos should not be limited to a small, closed set of classes. We present a simple, yet effective strategy for open-vocabulary temporal action detection utilizing pretrained image-text co-embeddings. Despite being trained on static images rather than videos, we show that image-text co-embeddings enable openvocabulary performance competitive with fully-supervised models. We show that the performance can be further improved by ensembling the image-text features with features encoding local motion, like optical flow based features, or other modalities, like audio. In addition, we propose a more reasonable open-vocabulary evaluation setting for the ActivityNet data set, where the category splits are based on similarity rather than random assignment.