arXiv reaDer
MAD:映画の音声ガイドからのビデオの言語グラウンディングのためのスケーラブルなデータセット
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions
ビデオ言語研究への最近の関心の高まりは、データ集約型の機械学習技術を可能にする大規模なデータセットの開発を推進しています。それに比べて、これらのデータセットのビデオ言語の接地タスクへの適合性を評価するための努力は限られています。最近の研究では、これらのデータセットに重大な制限があることがわかり始めており、最先端の手法が一般に隠れたデータセットのバイアスに適合していることを示唆しています。この作品では、MAD(Movie Audio Descriptions)を紹介します。これは、既存のビデオデータセットをテキスト注釈で拡張するというパラダイムから逸脱し、主流の映画の利用可能な音声ガイドをクロールして整列させることに焦点を当てた新しいベンチマークです。 MADには、1,200時間以上のビデオに基づいた384,000を超える自然言語の文が含まれており、ビデオ言語の根拠となるデータセットについて現在診断されているバイアスが大幅に減少しています。 MADの収集戦略により、ビデオ言語のグラウンディングの斬新でより挑戦的なバージョンが可能になります。この場合、短い時間的瞬間(通常は数秒の長さ)を、最大3時間続くさまざまな長い形式のビデオに正確にグラウンディングする必要があります。
The recent and increasing interest in video-language research has driven the development of large-scale datasets that enable data-intensive machine learning techniques. In comparison, limited effort has been made at assessing the fitness of these datasets for the video-language grounding task. Recent works have begun to discover significant limitations in these datasets, suggesting that state-of-the-art techniques commonly overfit to hidden dataset biases. In this work, we present MAD (Movie Audio Descriptions), a novel benchmark that departs from the paradigm of augmenting existing video datasets with text annotations and focuses on crawling and aligning available audio descriptions of mainstream movies. MAD contains over 384,000 natural language sentences grounded in over 1,200 hours of video and exhibits a significant reduction in the currently diagnosed biases for video-language grounding datasets. MAD's collection strategy enables a novel and more challenging version of video-language grounding, where short temporal moments (typically seconds long) must be accurately grounded in diverse long-form videos that can last up to three hours.
updated: Wed Dec 01 2021 11:47:09 GMT+0000 (UTC)
published: Wed Dec 01 2021 11:47:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト