arXiv reaDer
VLG: Web テキスト知識による一般的なビデオ認識
VLG: General Video Recognition with Web Textual Knowledge
クローズセット、ロングテール、少数ショット、オープンセットなどのさまざまな設定を処理する必要があるため、オープンでダイナミックな世界でのビデオ認識は非常に困難です。インターネットからクロールされたノイズの多いテキスト記述からの意味知識を活用することにより、統一されたフレームワーク内でさまざまな認識タスクを解決する一般的なビデオ認識 (GVR) の問題に焦点を当てています。この論文の主な貢献は 2 つあります。まず、前述の設定をカバーする 4 つのサブタスク データセットを含む、Kinetics-GVR の包括的なビデオ認識ベンチマークを構築します。 GVR の研究を容易にするために、インターネットから外部のテキスト知識を利用し、すべてのアクション クラスに複数ソースのテキスト記述を提供することを提案します。第二に、言語表現の柔軟性に触発され、効果的な 2 段階のトレーニング パラダイムによって GVR の問題を解決するための統一された視覚言語フレームワーク (VLG) を提示します。私たちの VLG は、最初にビデオと言語のデータセットで事前にトレーニングされ、共有特徴空間を学習します。次に、柔軟なバイモーダル アテンション ヘッドを考案して、さまざまな設定で高レベルのセマンティック コンセプトをコラボレーションします。広範な結果は、当社の VLG が 4 つの設定で最先端のパフォーマンスを得ることを示しています。優れたパフォーマンスは、提案されたフレームワークの有効性と一般化能力を示しています。私たちの研究が一般的なビデオ認識への一歩となり、将来の研究のベースラインとして役立つことを願っています.コードとモデルは https://github.com/MCG-NJU/VLG で入手できます。
Video recognition in an open and dynamic world is quite challenging, as we need to handle different settings such as close-set, long-tail, few-shot and open-set. By leveraging semantic knowledge from noisy text descriptions crawled from the Internet, we focus on the general video recognition (GVR) problem of solving different recognition tasks within a unified framework. The core contribution of this paper is twofold. First, we build a comprehensive video recognition benchmark of Kinetics-GVR, including four sub-task datasets to cover the mentioned settings. To facilitate the research of GVR, we propose to utilize external textual knowledge from the Internet and provide multi-source text descriptions for all action classes. Second, inspired by the flexibility of language representation, we present a unified visual-linguistic framework (VLG) to solve the problem of GVR by an effective two-stage training paradigm. Our VLG is first pre-trained on video and language datasets to learn a shared feature space, and then devises a flexible bi-modal attention head to collaborate high-level semantic concepts under different settings. Extensive results show that our VLG obtains the state-of-the-art performance under four settings. The superior performance demonstrates the effectiveness and generalization ability of our proposed framework. We hope our work makes a step towards the general video recognition and could serve as a baseline for future research. The code and models will be available at https://github.com/MCG-NJU/VLG.
updated: Sat Dec 03 2022 15:46:49 GMT+0000 (UTC)
published: Sat Dec 03 2022 15:46:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト