arXiv reaDer
ビデオキャプションのメタコンセプトを備えたクロスモーダルグラフ
Cross-Modal Graph with Meta Concepts for Video Captioning
ビデオキャプションは、複雑な視覚的コンテンツをテキストの説明として解釈することを目的としています。これには、モデルがオブジェクトとその相互作用を含むビデオシーンを完全に理解する必要があります。一般的な方法では、既成のオブジェクト検出ネットワークを採用してオブジェクトの提案を行い、注意メカニズムを使用してオブジェクト間の関係をモデル化します。彼らはしばしば、事前に訓練されたモデルのいくつかの未定義のセマンティック概念を見逃し、オブジェクト間の正確な述語関係を識別できません。この論文では、与えられたビデオのテキスト説明を生成するオープンリサーチタスクを調査し、ビデオキャプションのメタコンセプトを備えたクロスモーダルグラフ(CMG)を提案します。具体的には、ビデオキャプションの有用なセマンティック概念をカバーするために、テキスト記述に対応する視覚領域を弱く学習します。関連する視覚領域とテキスト単語は、クロスモーダルメタ概念と呼ばれます。さらに、学習したクロスモーダルメタコンセプトを使用して、メタコンセプトグラフを動的に作成します。また、ビデオシーケンス構造をモデル化するために、予測された述語を使用して、全体的なビデオレベルおよびローカルフレームレベルのビデオグラフを作成します。提案された手法の有効性を広範な実験で検証し、2つの公開データセットで最先端の結果を達成します。
Video captioning targets interpreting the complex visual contents as text descriptions, which requires the model to fully understand video scenes including objects and their interactions. Prevailing methods adopt off-the-shelf object detection networks to give object proposals and use the attention mechanism to model the relations between objects. They often miss some undefined semantic concepts of the pretrained model and fail to identify exact predicate relationships between objects. In this paper, we investigate an open research task of generating text descriptions for the given videos, and propose Cross-Modal Graph (CMG) with meta concepts for video captioning. Specifically, to cover the useful semantic concepts in video captions, we weakly learn the corresponding visual regions for text descriptions, where the associated visual regions and textual words are named cross-modal meta concepts. We further build meta concept graphs dynamically with the learned cross-modal meta concepts. We also construct holistic video-level and local frame-level video graphs with the predicted predicates to model video sequence structures. We validate the efficacy of our proposed techniques with extensive experiments and achieve state-of-the-art results on two public datasets.
updated: Sat Aug 14 2021 04:00:42 GMT+0000 (UTC)
published: Sat Aug 14 2021 04:00:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト