arXiv reaDer
MovieCuts:カットタイプ認識のための新しいデータセットとベンチマーク
MovieCuts: A New Dataset and Benchmark for Cut Type Recognition
映画とその構造パターンを理解することは、ビデオ編集の技術を解読するための重要なタスクです。以前の作品では、文字の検出やショットレベルでの撮影特性の認識などの一般的な分析用のツールが開発されましたが、最も基本的なビデオ編集であるカットの理解に費やされる労力は少なくなっています。この論文では、マルチモーダル情報のモデリングを必要とするカットタイプ認識タスクを紹介します。新しいタスクの研究に火をつけるために、MovieCutsと呼ばれる大規模なデータセットを構築します。このデータセットには、10のカットタイプ間でラベル付けされた17万を超えるビデオクリップが含まれています。問題のマルチモーダルおよびマルチラベルの性質を扱うものを含む、一連のオーディオビジュアルアプローチのベンチマークを行います。私たちの最良のモデルは45.7%のmAPを達成します。これは、タスクが困難であり、高精度のカットタイプ認識を達成することが未解決の研究課題であることを示唆しています。
Understanding movies and their structural patterns is a crucial task to decode the craft of video editing. While previous works have developed tools for general analysis such as detecting characters or recognizing cinematography properties at the shot level, less effort has been devoted to understanding the most basic video edit, the Cut. This paper introduces the cut type recognition task, which requires modeling of multi-modal information. To ignite research in the new task, we construct a large-scale dataset called MovieCuts, which contains more than 170K videoclips labeled among ten cut types. We benchmark a series of audio-visual approaches, including some that deal with the problem's multi-modal and multi-label nature. Our best model achieves 45.7% mAP, which suggests that the task is challenging and that attaining highly accurate cut type recognition is an open research problem.
updated: Sun Sep 12 2021 17:36:55 GMT+0000 (UTC)
published: Sun Sep 12 2021 17:36:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト