Vatex Video Captioning Challenge 2020: Multi-View Features and Hybrid Reward Strategies for Video Captioning
このレポートでは、ビデオの説明を英語と中国語の両方で生成する必要があるVATEXキャプションチャレンジ2020のソリューションについて説明します。パフォーマンスを改善する3つの重要な要素、つまりマルチビュー機能、ハイブリッド報酬、および多様なアンサンブルを特定しました。 VATEX 2019チャレンジの手法に基づいて、今年はより高度なモデルアーキテクチャ、外観とモーション機能の組み合わせ、および慎重なハイパーパラメーター調整により、大幅な改善を達成しました。私たちの方法は、中国語と英語の両方のビデオキャプショントラックで非常に競争力のある結果を達成します。
This report describes our solution for the VATEX Captioning Challenge 2020, which requires generating descriptions for the videos in both English and Chinese languages. We identified three crucial factors that improve the performance, namely: multi-view features, hybrid reward, and diverse ensemble. Based on our method of VATEX 2019 challenge, we achieved significant improvements this year with more advanced model architectures, combination of appearance and motion features, and careful hyper-parameters tuning. Our method achieves very competitive results on both of the Chinese and English video captioning tracks.
updated: Wed Jun 24 2020 03:42:09 GMT+0000 (UTC)
published: Thu Oct 17 2019 13:52:49 GMT+0000 (UTC)
