arXiv reaDer
微調整された CLIP モデルは効率的なビデオ学習者です
Fine-tuned CLIP Models are Efficient Video Learners
画像とテキストのペアを使用した大規模なマルチモーダル トレーニングは、CLIP モデルに強力な一般化をもたらします。ビデオの同様の規模でのトレーニングは実行不可能であるため、最近のアプローチでは、画像ベースの CLIP をビデオ ドメインに効果的に移行することに重点が置かれています。この追求では、細心の設計努力を必要とする時間情報とフレーム間の関係を学習するために、新しいパラメトリック モジュールが追加されています。さらに、結果として得られるモデルがビデオで学習されると、与えられたタスク分布にオーバーフィットする傾向があり、一般化の側面が欠けます。これは次の疑問を投げかけます: 画像レベルの CLIP 表現をビデオに効果的に転送するにはどうすればよいですか?この作業では、単純な Video Fine-tuned CLIP (ViFi-CLIP) ベースラインが、画像からビデオへのドメイン ギャップを埋めるのに一般的に十分であることを示しています。私たちの定性分析は、CLIP 画像エンコーダーからのフレームレベルの処理と、それに続く特徴プーリングおよび対応するテキスト埋め込みとの類似性マッチングが、ViFi-CLIP 内の一時的な手がかりを暗黙的にモデル化するのに役立つことを示しています。このような微調整は、モデルがシーンのダイナミクス、移動するオブジェクト、およびオブジェクト間の関係に焦点を当てるのに役立ちます。完全な微調整が実行できない低データ体制の場合、最初に微調整を使用してドメインギャップを埋め、次に言語とビジョン側でプロンプトを学習してCLIP表現を適応させる「ブリッジアンドプロンプト」アプローチを提案します。 5 つのビデオ ベンチマークで、ゼロ ショット、ベースからノベルへの一般化、少数ショット、および完全に監視された設定で、このシンプルでありながら強力なベースラインを広範囲に評価します。コードは https://github.com/muzairkhattak/ViFi-CLIP で入手できます。
Large-scale multi-modal training with image-text pairs imparts strong generalization to CLIP model. Since training on a similar scale for videos is infeasible, recent approaches focus on the effective transfer of image-based CLIP to the video domain. In this pursuit, new parametric modules are added to learn temporal information and inter-frame relationships which require meticulous design efforts. Furthermore, when the resulting models are learned on videos, they tend to overfit on the given task distribution and lack in generalization aspect. This begs the following question: How to effectively transfer image-level CLIP representations to videos? In this work, we show that a simple Video Fine-tuned CLIP (ViFi-CLIP) baseline is generally sufficient to bridge the domain gap from images to videos. Our qualitative analysis illustrates that the frame-level processing from CLIP image-encoder followed by feature pooling and similarity matching with corresponding text embeddings helps in implicitly modeling the temporal cues within ViFi-CLIP. Such fine-tuning helps the model to focus on scene dynamics, moving objects and inter-object relationships. For low-data regimes where full fine-tuning is not viable, we propose a `bridge and prompt' approach that first uses fine-tuning to bridge the domain gap and then learns prompts on language and vision side to adapt CLIP representations. We extensively evaluate this simple yet strong baseline on zero-shot, base-to-novel generalization, few-shot and fully supervised settings across five video benchmarks. Our code is available at https://github.com/muzairkhattak/ViFi-CLIP.
updated: Fri Mar 10 2023 15:18:18 GMT+0000 (UTC)
published: Tue Dec 06 2022 18:59:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト