arXiv reaDer
ビデオキャプションのための階層的モジュラーネットワーク
Hierarchical Modular Network for Video Captioning
ビデオキャプションは、表現学習が重要な役割を果たすコンテンツに応じて自然言語の説明を生成することを目的としています。既存の方法は、主に、言語セマンティクスを十分に活用せずに、生成されたキャプションをグラウンドトゥルーステキストと単語ごとに比較することにより、教師あり学習フレームワーク内で開発されます。この作業では、キャプションを生成する前に、3つのレベルからビデオ表現と言語セマンティクスを橋渡しする階層的なモジュラーネットワークを提案します。特に、階層は次のもので構成されます。(I)エンティティレベル。キャプションで言及される可能性が最も高いオブジェクトを強調表示します。 (II)述語レベル。強調表示されたオブジェクトを条件とするアクションを学習し、キャプションの述語によって監視されます。 (III)グローバルな意味表現を学習し、キャプション全体によって監視される文レベル。各レベルは1つのモジュールによって実装されます。広範な実験結果は、提案された方法が、CIDErスコアでMSVD 104.0%とMSR-VTT 51.5%の2つの広く使用されているベンチマークで最先端のモデルに対して良好に機能することを示しています。
Video captioning aims to generate natural language descriptions according to the content, where representation learning plays a crucial role. Existing methods are mainly developed within the supervised learning framework via word-by-word comparison of the generated caption against the ground-truth text without fully exploiting linguistic semantics. In this work, we propose a hierarchical modular network to bridge video representations and linguistic semantics from three levels before generating captions. In particular, the hierarchy is composed of: (I) Entity level, which highlights objects that are most likely to be mentioned in captions. (II) Predicate level, which learns the actions conditioned on highlighted objects and is supervised by the predicate in captions. (III) Sentence level, which learns the global semantic representation and is supervised by the whole caption. Each level is implemented by one module. Extensive experimental results show that the proposed method performs favorably against the state-of-the-art models on the two widely-used benchmarks: MSVD 104.0% and MSR-VTT 51.5% in CIDEr score.
updated: Thu Mar 10 2022 03:21:15 GMT+0000 (UTC)
published: Wed Nov 24 2021 13:07:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト