arXiv reaDer
Discriminative Latent Semantic Graph for Video Captioning
ビデオキャプションは、特定のビデオの視覚的コンテンツを説明できる自然言語の文章を自動的に生成することを目的としています。エンコーダーデコーダーフレームワークのような既存の生成モデルは、複雑な時空間データからオブジェクトレベルの相互作用とフレームレベルの情報を明示的に探索して、セマンティックが豊富なキャプションを生成することはできません。私たちの主な貢献は、将来のビデオ要約タスクのための共同フレームワークにおける3つの主要な問題を特定することです。 1)強化されたオブジェクト提案:時空間情報を潜在オブジェクト提案に融合できる新しい条件付きグラフを提案します。 2)視覚的知識:潜在的提案集約は、より高い意味レベルを持つ視覚的単語を動的に抽出するために提案されています。 3)文の検証:主要な意味概念を効果的に保存できるように、生成されたキャプションを検証するための新しい識別言語バリデーターが提案されています。 2つの公開データセット(MVSDとMSR-VTT)での実験では、すべてのメトリック、特にBLEU-4とCIDErで、最先端のアプローチに比べて大幅な改善が見られます。私たちのコードはで入手できます。
Video captioning aims to automatically generate natural language sentences that can describe the visual contents of a given video. Existing generative models like encoder-decoder frameworks cannot explicitly explore the object-level interactions and frame-level information from complex spatio-temporal data to generate semantic-rich captions. Our main contribution is to identify three key problems in a joint framework for future video summarization tasks. 1) Enhanced Object Proposal: we propose a novel Conditional Graph that can fuse spatio-temporal information into latent object proposal. 2) Visual Knowledge: Latent Proposal Aggregation is proposed to dynamically extract visual words with higher semantic levels. 3) Sentence Validation: A novel Discriminative Language Validator is proposed to verify generated captions so that key semantic concepts can be effectively preserved. Our experiments on two public datasets (MVSD and MSR-VTT) manifest significant improvements over state-of-the-art approaches on all metrics, especially for BLEU-4 and CIDEr. Our code is available at
updated: Sun Aug 08 2021 15:11:20 GMT+0000 (UTC)
published: Sun Aug 08 2021 15:11:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト