arXiv reaDer
ダイナミックロスネットワークによるビデオキャプションの強化
Boosting Video Captioning with Dynamic Loss Network
ビデオキャプションは、視覚と言語の交差点での困難な問題の1つであり、ビデオ検索、ビデオ監視、視覚障害者の支援、ヒューマンマシンインターフェイスなど、多くの実際のアプリケーションがあります。最近の深層学習ベースの方法は有望な結果を示していますが、他の視覚タスク(画像分類、オブジェクト検出など)よりもまだ低い側にあります。既存のビデオキャプション方法の重大な欠点は、クロスエントロピー損失関数に対して最適化されていることです。これは、事実上の評価指標(BLEU、METEOR、CIDER、ROUGE)とは相関関係がありません。つまり、クロスエントロピーは適切ではありません。ビデオキャプションの真の損失関数の代理。このホワイトペーパーでは、評価メトリックを直接反映する追加のフィードバック信号を提供する動的損失ネットワーク(DLN)を導入することにより、この欠点に対処します。 Microsoft Research Video Description Corpus(MSVD)およびMSR-Video to Text(MSRVTT)データセットに関する結果は、以前の方法よりも優れています。
Video captioning is one of the challenging problems at the intersection of vision and language, having many real-life applications in video retrieval, video surveillance, assisting visually challenged people, Human-machine interface, and many more. Recent deep learning-based methods have shown promising results but are still on the lower side than other vision tasks (such as image classification, object detection). A significant drawback with existing video captioning methods is that they are optimized over cross-entropy loss function, which is uncorrelated to the de facto evaluation metrics (BLEU, METEOR, CIDER, ROUGE).In other words, cross-entropy is not a proper surrogate of the true loss function for video captioning. This paper addresses the drawback by introducing a dynamic loss network (DLN), which provides an additional feedback signal that directly reflects the evaluation metrics. Our results on Microsoft Research Video Description Corpus (MSVD) and MSR-Video to Text (MSRVTT) datasets outperform previous methods.
updated: Sun Jul 25 2021 01:32:02 GMT+0000 (UTC)
published: Sun Jul 25 2021 01:32:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト