映画とその構造パターンを理解することは、ビデオ編集の技術を解読する上で重要な作業です。以前の研究では、キャラクターの検出やショット レベルでの映画撮影の特性の認識など、一般的な分析のためのツールが開発されていましたが、最も基本的なビデオ編集であるカットを理解するための努力はあまり行われていませんでした。この論文では、マルチモーダル情報のモデル化を必要とするカット タイプ認識タスクを紹介します。この新しいタスクの研究に火をつけるために、私たちは MovieCuts と呼ばれる大規模なデータセットを構築します。このデータセットには、映画業界の専門家によって定義された 10 のカット タイプでラベル付けされた 173,967 のビデオ クリップが含まれています。問題のマルチモーダルな性質を扱うものを含め、一連の視聴覚アプローチのベンチマークを行います。私たちの最高のモデルは 47.7% の mAP を達成しています。これは、タスクが困難であり、非常に正確なカット タイプの認識を達成することが未解決の研究課題であることを示唆しています。カットタイプの自動認識の進歩により、教育用の映画分析、ビデオの再編集、バーチャル シネマトグラフィー、機械支援のトレーラー生成、機械支援のビデオ編集など、ビデオ編集業界に新しい体験が生まれる可能性があります。私たちのデータとコードは公開されています: https://github.com/PardoAlejo/MovieCuts}{https://github.com/PardoAlejo/MovieCuts.
Understanding movies and their structural patterns is a crucial task in decoding the craft of video editing. While previous works have developed tools for general analysis, such as detecting characters or recognizing cinematography properties at the shot level, less effort has been devoted to understanding the most basic video edit, the Cut. This paper introduces the Cut type recognition task, which requires modeling multi-modal information. To ignite research in this new task, we construct a large-scale dataset called MovieCuts, which contains 173,967 video clips labeled with ten cut types defined by professionals in the movie industry. We benchmark a set of audio-visual approaches, including some dealing with the problem's multi-modal nature. Our best model achieves 47.7% mAP, which suggests that the task is challenging and that attaining highly accurate Cut type recognition is an open research problem. Advances in automatic Cut-type recognition can unleash new experiences in the video editing industry, such as movie analysis for education, video re-editing, virtual cinematography, machine-assisted trailer generation, machine-assisted video editing, among others. Our data and code are publicly available: https://github.com/PardoAlejo/MovieCuts}{https://github.com/PardoAlejo/MovieCuts.