arXiv reaDer
テキスト追跡のための意味論的表現と視覚的表現の対照学習
Contrastive Learning of Semantic and Visual Representations for Text Tracking
セマンティック表現は、ビデオ内のテキストの分類、検出、および追跡を同時に行う必要があるビデオテキスト追跡(VTT)タスクにとって非常に有益です。ほとんどの既存のアプローチは、豊富なセマンティック機能を無視しながら、連続フレームの外観の類似性によってこのタスクに取り組んでいます。この論文では、意味表現と視覚表現の対照的な学習により、ビデオテキストを堅牢に追跡する方法を探ります。これに対応して、セマンティックおよびビジュアル表現(SVRep)を備えたエンドツーエンドのビデオテキストトラッカーを紹介します。これは、ビデオシーケンス内の異なるテキスト間の視覚的およびセマンティックな関係を利用して、テキストを検出および追跡します。さらに、軽量アーキテクチャにより、SVRepは、競争力のある推論速度を維持しながら、最先端のパフォーマンスを実現します。具体的には、ResNet-18のバックボーンを使用して、SVRepはICDAR2015(ビデオ)データセットで65.9%のID_F1を達成し、16.7 FPSで実行され、以前の最先端の方法より8.6%向上しています。
Semantic representation is of great benefit to the video text tracking(VTT) task that requires simultaneously classifying, detecting, and tracking texts in the video. Most existing approaches tackle this task by appearance similarity in continuous frames, while ignoring the abundant semantic features. In this paper, we explore to robustly track video text with contrastive learning of semantic and visual representations. Correspondingly, we present an end-to-end video text tracker with Semantic and Visual Representations(SVRep), which detects and tracks texts by exploiting the visual and semantic relationships between different texts in a video sequence. Besides, with a light-weight architecture, SVRep achieves state-of-the-art performance while maintaining competitive inference speed. Specifically, with a backbone of ResNet-18, SVRep achieves an ID_F1 of 65.9%, running at 16.7 FPS, on the ICDAR2015(video) dataset with 8.6% improvement than the previous state-of-the-art methods.
updated: Fri Aug 19 2022 04:48:54 GMT+0000 (UTC)
published: Thu Dec 30 2021 09:22:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト