Video captioning with stacked attention and semantic hard pull
ビデオキャプション、つまりビデオシーケンスからキャプションを生成するタスクは、コンピュータサイエンスの自然言語処理ドメインとコンピュータビジョンドメインの間に架け橋を作ります。ビデオの意味的に正確な説明を生成するタスクは非常に複雑です。問題の複雑さを考えると、最近の研究で得られた結果は称賛に値します。ただし、さらに調査する余地は十分にあります。このホワイトペーパーでは、この範囲に取り組み、新しいソリューションを提案します。ほとんどのビデオキャプションモデルは、2つのシーケンシャル/リカレントレイヤーで構成されています。1つはビデオからコンテキストへのエンコーダーとして、もう1つはコンテキストからキャプションへのデコーダーとして機能します。このホワイトペーパーでは、新しいアーキテクチャ、つまり「スタックアテンション」と「空間ハードプル」という2つの新しいアプローチを使用してコンテキスト生成メカニズムを変更するSemantically Sensible Video Captioning(SSVC)を提案します。ビデオキャプションモデルを評価するための排他的なメトリックがないため、モデルの定量的分析と定性的分析の両方に重点を置いています。したがって、定量分析にはBLEUスコアリングメトリックを使用し、定性分析には人間による評価メトリック、つまりセマンティック感度(SS)スコアリングメトリックを提案しました。 SSスコアは、一般的な自動スコアリングメトリックの欠点を克服します。このホワイトペーパーでは、前述のノベルティを使用すると、最先端のアーキテクチャのパフォーマンスが向上することを報告します。
Video captioning, i.e. the task of generating captions from video sequences creates a bridge between the Natural Language Processing and Computer Vision domains of computer science. The task of generating a semantically accurate description of a video is quite complex. Considering the complexity, of the problem, the results obtained in recent research works are praiseworthy. However, there is plenty of scope for further investigation. This paper addresses this scope and proposes a novel solution. Most video captioning models comprise two sequential/recurrent layers - one as a video-to-context encoder and the other as a context-to-caption decoder. This paper proposes a novel architecture, namely Semantically Sensible Video Captioning (SSVC) which modifies the context generation mechanism by using two novel approaches - "stacked attention" and "spatial hard pull". As there are no exclusive metrics for evaluating video captioning models, we emphasize both quantitative and qualitative analysis of our model. Hence, we have used the BLEU scoring metric for quantitative analysis and have proposed a human evaluation metric for qualitative analysis, namely the Semantic Sensibility (SS) scoring metric. SS Score overcomes the shortcomings of common automated scoring metrics. This paper reports that the use of the aforementioned novelties improves the performance of state-of-the-art architectures.
updated: Fri Jul 16 2021 18:06:58 GMT+0000 (UTC)
published: Tue Sep 15 2020 19:34:37 GMT+0000 (UTC)
