arXiv reaDer
ゲームプレーヤーとしてのビデオテキスト: クロスモーダル表現学習のための階層的 Banzhaf インタラクション
Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning
対照的な学習ベースのビデオ言語表現学習アプローチ、たとえば、CLIP は、事前に定義されたビデオ テキスト ペアでセマンティックな相互作用を追求する優れたパフォーマンスを達成しています。この粗粒度のグローバルな相互作用を明確にし、さらに一歩進めるには、きめの細かいクロスモーダル学習のための挑戦的な殻を破る相互作用に遭遇する必要があります。この論文では、ビデオテキストをゲームプレーヤーとして創造的にモデル化し、多変量協調ゲーム理論を使用して、多様な粒度、柔軟な組み合わせ、および漠然とした強度を備えたきめの細かい意味論的相互作用中の不確実性を賢く処理します。具体的には、敏感で説明可能なクロスモーダルコントラストのために、ビデオフレームとテキスト単語の間の可能な対応を評価するために、階層的バンザフ相互作用(HBI)を提案します。複数のビデオフレームと複数のテキスト単語の協力ゲームを効率的に実現するために、提案された方法は元のビデオフレーム (テキスト単語) をクラスタリングし、マージされたトークン間の Banzhaf 相互作用を計算します。トークン マージ モジュールを積み重ねることで、さまざまなセマンティック レベルでの協力ゲームを実現します。一般的に使用されるテキスト ビデオ検索とビデオ質問応答ベンチマークに関する広範な実験により、優れたパフォーマンスが得られ、HBI の有効性が正当化されます。さらに心強いことに、コミュニティに広範な影響を与えるクロスモーダル インタラクションの理解を促進するための視覚化ツールとしても機能します。プロジェクトページは https://jpthu17.github.io/HBI/ にあります。
Contrastive learning-based video-language representation learning approaches, e.g., CLIP, have achieved outstanding performance, which pursue semantic interaction upon pre-defined video-text pairs. To clarify this coarse-grained global interaction and move a step further, we have to encounter challenging shell-breaking interactions for fine-grained cross-modal learning. In this paper, we creatively model video-text as game players with multivariate cooperative game theory to wisely handle the uncertainty during fine-grained semantic interaction with diverse granularity, flexible combination, and vague intensity. Concretely, we propose Hierarchical Banzhaf Interaction (HBI) to value possible correspondence between video frames and text words for sensitive and explainable cross-modal contrast. To efficiently realize the cooperative game of multiple video frames and multiple text words, the proposed method clusters the original video frames (text words) and computes the Banzhaf Interaction between the merged tokens. By stacking token merge modules, we achieve cooperative games at different semantic levels. Extensive experiments on commonly used text-video retrieval and video-question answering benchmarks with superior performances justify the efficacy of our HBI. More encouragingly, it can also serve as a visualization tool to promote the understanding of cross-modal interaction, which have a far-reaching impact on the community. Project page is available at https://jpthu17.github.io/HBI/.
updated: Sat Mar 25 2023 05:47:52 GMT+0000 (UTC)
published: Sat Mar 25 2023 05:47:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト