このノートブックペーパーは、VATEXビデオキャプションチャレンジのモデルを示しています。ビデオのマルチレベルの側面をキャプチャするために、ビデオキャプションの時間的注意と空間的注意の両方を統合することを提案します。時間的注意モジュールはグローバルなアクションの動きに焦点を合わせ、空間的注意モジュールはよりきめの細かいオブジェクトを記述することを可能にします。これらの2つのタイプの注意深いモジュールは相補的であると考えて、後期融合戦略によってそれらを融合します。提案されたモデルは、ベースラインを大幅に上回り、VATEXビデオキャプションチャレンジリーダーボード2019で2位にランクされたテストセットで73.4 CIDErスコアを達成しました。
This notebook paper presents our model in the VATEX video captioning challenge. In order to capture multi-level aspects in the video, we propose to integrate both temporal and spatial attentions for video captioning. The temporal attentive module focuses on global action movements while spatial attentive module enables to describe more fine-grained objects. Considering these two types of attentive modules are complementary, we thus fuse them via a late fusion strategy. The proposed model significantly outperforms baselines and achieves 73.4 CIDEr score on the testing set which ranks the second place at the VATEX video captioning challenge leaderboard 2019.