動画の説明は、特定の動画の内容を説明する自然言語文の自動生成です。人間とロボットの相互作用に応用され、視覚障害者やビデオの字幕作成を支援します。過去数年間、コンピュータービジョンと自然言語処理におけるディープラーニングの前例のない成功により、この分野の研究が急増しています。文献では数多くの方法、データセット、評価指標が提案されており、この盛んな新しい方向に研究努力を集中させる包括的な調査の必要性を呼びかけています。このペーパーでは、ディープラーニングモデルに焦点を合わせて最先端のアプローチを調査することで、ギャップを埋めます。ドメイン、クラス数、リポジトリサイズの観点からベンチマークデータセットを比較します。 SPICE、CIDEr、ROUGE、BLEU、METEOR、WMDなどのさまざまな評価指標の長所と短所を特定します。古典的なビデオ記述では、主題、目的語、動詞の検出をテンプレートベースの言語モデルと組み合わせて、文章を生成します。ただし、大規模なデータセットのリリースにより、これらの方法は制約のないオープンドメインビデオの多様性に対処できないことが明らかになりました。古典的なアプローチの後には、統計手法の非常に短い時代が続き、すぐにビデオ記述の最新技術であるディープラーニングに置き換えられました。私たちの調査では、急速な発展にもかかわらず、以下の理由により、ビデオ記述の研究はまだ始まったばかりです。ビデオ記述モデルの分析は、視覚的特徴と最終的な記述で採用された言語モデルの正確性またはエラーへの寄与を確認することが難しいため、困難です。既存のデータセットには、適切な視覚的多様性も言語構造の複雑さも含まれていません。最後に、現在の評価指標...
Video description is the automatic generation of natural language sentences that describe the contents of a given video. It has applications in human-robot interaction, helping the visually impaired and video subtitling. The past few years have seen a surge of research in this area due to the unprecedented success of deep learning in computer vision and natural language processing. Numerous methods, datasets and evaluation metrics have been proposed in the literature, calling the need for a comprehensive survey to focus research efforts in this flourishing new direction. This paper fills the gap by surveying the state of the art approaches with a focus on deep learning models; comparing benchmark datasets in terms of their domains, number of classes, and repository size; and identifying the pros and cons of various evaluation metrics like SPICE, CIDEr, ROUGE, BLEU, METEOR, and WMD. Classical video description approaches combined subject, object and verb detection with template based language models to generate sentences. However, the release of large datasets revealed that these methods can not cope with the diversity in unconstrained open domain videos. Classical approaches were followed by a very short era of statistical methods which were soon replaced with deep learning, the current state of the art in video description. Our survey shows that despite the fast-paced developments, video description research is still in its infancy due to the following reasons. Analysis of video description models is challenging because it is difficult to ascertain the contributions, towards accuracy or errors, of the visual features and the adopted language model in the final description. Existing datasets neither contain adequate visual diversity nor complexity of linguistic structures. Finally, current evaluation metrics ...