映画などの長編メディアは複雑な物語構造を持っており、イベントはさまざまな周囲の視覚的シーンにまたがっています。映画のビジュアル シーンに関連するドメイン固有の課題には、トランジション、人物のカバレッジ、さまざまな現実および架空のシナリオが含まれます。映画の既存のビジュアル シーン データセットは、分類が制限されており、ムービー クリップ内のビジュアル シーンの遷移を考慮していません。この作業では、最初に、映画のスクリプトと補助的な Web ベースのビデオ データセットから派生した 179 のシーン ラベルの新しい広範な映画中心の分類法を自動的にキュレーションすることにより、映画の視覚的シーン認識の問題に対処します。費用がかかる可能性のある手動の注釈の代わりに、CLIP を使用して、提案された分類法に基づいて 32K のムービー クリップから 112 万のショットに弱いラベルを付けます。 MovieCLIP と呼ばれる弱くラベル付けされたデータセットでトレーニングされたベースライン ビジュアル モデルを提供し、人間の評価者によって検証された独立したデータセットでそれらを評価します。 MovieCLIP で事前トレーニングされたモデルの機能を活用すると、マルチラベル シーンや Web ビデオや映画の予告編のジャンル分類などのダウンストリーム タスクにメリットがあることを示します。
Longform media such as movies have complex narrative structures, with events spanning a rich variety of ambient visual scenes. Domain specific challenges associated with visual scenes in movies include transitions, person coverage, and a wide array of real-life and fictional scenarios. Existing visual scene datasets in movies have limited taxonomies and don't consider the visual scene transition within movie clips. In this work, we address the problem of visual scene recognition in movies by first automatically curating a new and extensive movie-centric taxonomy of 179 scene labels derived from movie scripts and auxiliary web-based video datasets. Instead of manual annotations which can be expensive, we use CLIP to weakly label 1.12 million shots from 32K movie clips based on our proposed taxonomy. We provide baseline visual models trained on the weakly labeled dataset called MovieCLIP and evaluate them on an independent dataset verified by human raters. We show that leveraging features from models pretrained on MovieCLIP benefits downstream tasks such as multi-label scene and genre classification of web videos and movie trailers.