arXiv reaDer
ビデオ接地のためのサポートセットベースの相互監視
Support-Set Based Cross-Supervision for Video Grounding
ビデオ接地の現在のアプローチは、ビデオとテキストの関係をキャプチャするための複雑なアーキテクチャの種類を提案し、印象的な改善を達成しています。しかし、実際には建築設計だけでは複雑なマルチモーダル関係を学ぶことは困難です。このホワイトペーパーでは、追加の推論コストなしでトレーニングフェーズ中に既存の方法を改善できる新しいサポートセットベースの相互監視(Sscs)モジュールを紹介します。提案されたSscsモジュールには、2つの主要なコンポーネント、つまり、識別対照目的と生成キャプション目的が含まれています。対照的な目的は、対照的な学習によって効果的な表現を学習することを目的としていますが、キャプションの目的は、テキストによって監視される強力なビデオエンコーダーをトレーニングできます。グラウンドトゥルースとバックグラウンドの両方の間隔でいくつかの視覚エンティティが共存するため、つまり相互排除のため、素朴な対照学習はビデオの接地には適していません。ビデオ全体から視覚情報を収集し、エンティティの相互排除を排除するサポートセットの概念を使用して相互監視を強化することで、この問題に対処します。 Sscsは、元の目的と組み合わせることで、既存のアプローチのマルチモーダルリレーションモデリングの機能を強化できます。 3つの挑戦的なデータセットでSscsを広範囲に評価し、私たちの方法が現在の最先端の方法を大幅に改善できることを示しています。特に、Charades-STAのR1 @ 0.5に関して6.35%です。
Current approaches for video grounding propose kinds of complex architectures to capture the video-text relations, and have achieved impressive improvements. However, it is hard to learn the complicated multi-modal relations by only architecture designing in fact. In this paper, we introduce a novel Support-set Based Cross-Supervision (Sscs) module which can improve existing methods during training phase without extra inference cost. The proposed Sscs module contains two main components, i.e., discriminative contrastive objective and generative caption objective. The contrastive objective aims to learn effective representations by contrastive learning, while the caption objective can train a powerful video encoder supervised by texts. Due to the co-existence of some visual entities in both ground-truth and background intervals, i.e., mutual exclusion, naively contrastive learning is unsuitable to video grounding. We address the problem by boosting the cross-supervision with the support-set concept, which collects visual information from the whole video and eliminates the mutual exclusion of entities. Combined with the original objectives, Sscs can enhance the abilities of multi-modal relation modeling for existing approaches. We extensively evaluate Sscs on three challenging datasets, and show that our method can improve current state-of-the-art methods by large margins, especially 6.35% in terms of R1@0.5 on Charades-STA.
updated: Tue Aug 24 2021 08:25:26 GMT+0000 (UTC)
published: Tue Aug 24 2021 08:25:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト