arXiv reaDer
コラボレーティブ ノイジー ラベル クリーナー: 映画のマルチモーダル ハイライト検出のためのシーン認識予告編の学習
Collaborative Noisy Label Cleaner: Learning Scene-aware Trailers for Multi-modal Highlight Detection in Movies
映画のハイライトは、効率的なブラウジングのために脚本から際立っており、ソーシャル メディア プラットフォームで重要な役割を果たします。既存の取り組みに基づくと、この作業には次の 2 つの観察結果があります。(1) さまざまなアノテーターにとって、ハイライトのラベル付けには不確実性があり、不正確で時間のかかるアノテーションにつながります。 (2) 以前の教師ありまたは教師なしの設定に加えて、予告編などの既存のビデオ コーパスが役立つ場合がありますが、多くの場合、それらはノイズが多く、ハイライトを完全にカバーするには不完全です。この作業では、より実用的で有望な設定を研究します。つまり、ハイライト検出を「ノイズの多いラベルを使用した学習」として再定式化します。この設定により、時間のかかる手動の注釈が不要になり、既存の豊富なビデオ コーパスを最大限に活用できます。まず、映画の予告編に基づいて、シーン セグメンテーションを利用して、ノイズの多いラベルと見なされる完全なショットを取得します。次に、ノイジーなハイライトの瞬間から学習するためのコラボレーティブ ノイジー ラベル クリーナー (CLC) フレームワークを提案します。 CLC は、拡張クロスプロパゲーション (ACP) とマルチモダリティ クリーニング (MMC) の 2 つのモジュールで構成されています。前者は、密接に関連するオーディオビジュアル信号を活用し、それらを融合して、統一されたマルチモーダル表現を学習することを目的としています。後者は、異なるモダリティ間の損失の変化を観察することにより、よりクリーンなハイライト ラベルを実現することを目的としています。 CLC の有効性を検証するために、MovieLights という大規模なハイライト データセットをさらに収集します。 MovieLights と YouTube Highlights データセットに関する包括的な実験は、私たちのアプローチの有効性を示しています。コードは https://github.com/TencentYoutuResearch/HighlightDetection-CLC で入手できます。
Movie highlights stand out of the screenplay for efficient browsing and play a crucial role on social media platforms. Based on existing efforts, this work has two observations: (1) For different annotators, labeling highlight has uncertainty, which leads to inaccurate and time-consuming annotations. (2) Besides previous supervised or unsupervised settings, some existing video corpora can be useful, e.g., trailers, but they are often noisy and incomplete to cover the full highlights. In this work, we study a more practical and promising setting, i.e., reformulating highlight detection as "learning with noisy labels". This setting does not require time-consuming manual annotations and can fully utilize existing abundant video corpora. First, based on movie trailers, we leverage scene segmentation to obtain complete shots, which are regarded as noisy labels. Then, we propose a Collaborative noisy Label Cleaner (CLC) framework to learn from noisy highlight moments. CLC consists of two modules: augmented cross-propagation (ACP) and multi-modality cleaning (MMC). The former aims to exploit the closely related audio-visual signals and fuse them to learn unified multi-modal representations. The latter aims to achieve cleaner highlight labels by observing the changes in losses among different modalities. To verify the effectiveness of CLC, we further collect a large-scale highlight dataset named MovieLights. Comprehensive experiments on MovieLights and YouTube Highlights datasets demonstrate the effectiveness of our approach. Code has been made available at: https://github.com/TencentYoutuResearch/HighlightDetection-CLC
updated: Sun Mar 26 2023 16:16:31 GMT+0000 (UTC)
published: Sun Mar 26 2023 16:16:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト