arXiv reaDer
多様なビデオキャプションのための変分スタックローカルアテンションネットワーク
Variational Stacked Local Attention Networks for Diverse Video Captioning
自然言語で時空間イベントを説明する一方で、ビデオキャプションモデルは主にエンコーダの潜在的な視覚的表現に依存しています。エンコーダー-デコーダーモデルの最近の進歩は、主にデコーダーとの線形相互作用におけるエンコーダー機能に関係しています。ただし、ビジュアルデータのモデルの複雑さが増すと、ビデオキャプションドメインには現在存在しない、きめ細かい情報に対するより明確な機能の相互作用が促進されます。さらに、特徴集約法は、連結または線形レイヤーのいずれかによって、より豊かな視覚的表現を明らかにするために使用されてきました。ビデオの機能セットは意味的にある程度重複していますが、これらのアプローチは客観的な不一致と機能の冗長性をもたらします。さらに、キャプションの多様性は、いくつかの意味のある視点から1つのイベントを表現するための基本的なコンポーネントであり、現在、時間的、つまりビデオキャプションドメインにはありません。この目的のために、Variational Stacked Local Attention Network(VSLAN)を提案します。これは、低ランクの双線形プーリングを活用して、自己注意のある機能の相互作用と、複数のビデオ機能ストリームを割引価格でスタックします。各機能スタックの学習された属性は、提案されたダイバーシティエンコーディングモジュールに貢献し、その後に、属性を明示的に監視することなく、エンドツーエンドのダイバーシティで自然なキャプションを容易にするデコードクエリステージが続きます。構文と多様性の観点から、MSVDおよびMSR-VTTデータセットでVSLANを評価します。 VSLANのCIDErスコアは、現在の既製の方法よりも、MSVDで7.8%、MSR-VTTで4.5%優れています。同じデータセットで、VSLANはキャプションダイバーシティメトリックで競争力のある結果を達成します。
While describing Spatio-temporal events in natural language, video captioning models mostly rely on the encoder's latent visual representation. Recent progress on the encoder-decoder model attends encoder features mainly in linear interaction with the decoder. However, growing model complexity for visual data encourages more explicit feature interaction for fine-grained information, which is currently absent in the video captioning domain. Moreover, feature aggregations methods have been used to unveil richer visual representation, either by the concatenation or using a linear layer. Though feature sets for a video semantically overlap to some extent, these approaches result in objective mismatch and feature redundancy. In addition, diversity in captions is a fundamental component of expressing one event from several meaningful perspectives, currently missing in the temporal, i.e., video captioning domain. To this end, we propose Variational Stacked Local Attention Network (VSLAN), which exploits low-rank bilinear pooling for self-attentive feature interaction and stacking multiple video feature streams in a discount fashion. Each feature stack's learned attributes contribute to our proposed diversity encoding module, followed by the decoding query stage to facilitate end-to-end diverse and natural captions without any explicit supervision on attributes. We evaluate VSLAN on MSVD and MSR-VTT datasets in terms of syntax and diversity. The CIDEr score of VSLAN outperforms current off-the-shelf methods by 7.8% on MSVD and 4.5% on MSR-VTT, respectively. On the same datasets, VSLAN achieves competitive results in caption diversity metrics.
updated: Tue Jan 04 2022 05:14:34 GMT+0000 (UTC)
published: Tue Jan 04 2022 05:14:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト