arXiv reaDer
AutoAD: コンテキスト内の映画の説明
AutoAD: Movie Description in Context
このホワイト ペーパーの目的は、映画を取り込み、AD をテキスト形式で出力する自動音声解説 (AD) モデルです。高品質の映画広告を生成することは、説明がコンテキストに依存していることと、利用可能なトレーニング データの量が限られていることから困難です。この作業では、GPT や CLIP などの事前トレーニング済みの基盤モデルの力を活用し、視覚的に調整されたテキスト生成のために 2 つのモデルを橋渡しするマッピング ネットワークのみをトレーニングします。高品質の AD を取得するために、次の 4 つの貢献を行います。(i) 映画クリップのコンテキスト、前のクリップの AD、および字幕を組み込みます。 (ii) 大規模なデータセットで事前トレーニングを行うことにより、トレーニング データの不足に対処します。たとえば、映画のないテキストのみの AD や、コンテキストのないビジュアル キャプション データセットなど、視覚的またはコンテキスト情報が利用できない場合です。 (iii) MAD データセットのラベル ノイズを削除し、文字の命名情報を追加することで、現在利用可能な AD データセットを改善します。 (iv) 以前の方法と比較して、映画 AD タスクで強力な結果が得られます。
The objective of this paper is an automatic Audio Description (AD) model that ingests movies and outputs AD in text form. Generating high-quality movie AD is challenging due to the dependency of the descriptions on context, and the limited amount of training data available. In this work, we leverage the power of pretrained foundation models, such as GPT and CLIP, and only train a mapping network that bridges the two models for visually-conditioned text generation. In order to obtain high-quality AD, we make the following four contributions: (i) we incorporate context from the movie clip, AD from previous clips, as well as the subtitles; (ii) we address the lack of training data by pretraining on large-scale datasets, where visual or contextual information is unavailable, e.g. text-only AD without movies or visual captioning datasets without context; (iii) we improve on the currently available AD datasets, by removing label noise in the MAD dataset, and adding character naming information; and (iv) we obtain strong results on the movie AD task compared with previous methods.
updated: Wed Mar 29 2023 17:59:58 GMT+0000 (UTC)
published: Wed Mar 29 2023 17:59:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト