arXiv reaDer
機能とサンプルの観点からのビデオ質問応答におけるマルチモーダルアライメントの再考
Rethinking Multi-Modal Alignment in Video Question Answering from Feature and Sample Perspectives
ビデオの因果関係と時間的イベントの関係についての推論は、ビデオ質問応答(VideoQA)の新しい目的地です。この目的を達成するための主な障害は、言語とビデオの抽象化レベルが異なるため、それらの間のセマンティックギャップです。既存の取り組みは、主に、フレームレベルまたはオブジェクトレベルの視覚的表現を利用しながら、洗練されたアーキテクチャを設計することに焦点を当てています。このホワイトペーパーでは、VideoQAのマルチモーダルアライメント問題を機能とサンプルの観点から再検討し、パフォーマンスを向上させます。機能の観点から、ビデオを軌道に分解し、最初にVideoQAの軌道機能を活用して、2つのモダリティ間の調整を強化します。さらに、異種グラフアーキテクチャを採用し、階層レベルのフレームワークを設計して、軌跡レベルとフレームレベルの両方の視覚的機能を言語機能に合わせます。さらに、VideoQAモデルは言語の事前確率に大きく依存しており、視覚言語の相互作用を常に無視していることがわかりました。したがって、2つの効果的でありながらポータブルなトレーニング強化戦略は、サンプルの観点からモデルのクロスモーダル対応能力を強化するように設計されています。広範な結果は、私たちの方法が、提案された方法の有効性を実証する、挑戦的なNExT-QAベンチマークですべての最先端モデルよりも優れていることを示しています。
Reasoning about causal and temporal event relations in videos is a new destination of Video Question Answering (VideoQA).The major stumbling block to achieve this purpose is the semantic gap between language and video since they are at different levels of abstraction. Existing efforts mainly focus on designing sophisticated architectures while utilizing frame- or object-level visual representations. In this paper, we reconsider the multi-modal alignment problem in VideoQA from feature and sample perspectives to achieve better performance. From the view of feature,we break down the video into trajectories and first leverage trajectory feature in VideoQA to enhance the alignment between two modalities. Moreover, we adopt a heterogeneous graph architecture and design a hierarchical framework to align both trajectory-level and frame-level visual feature with language feature. In addition, we found that VideoQA models are largely dependent on language priors and always neglect visual-language interactions. Thus, two effective yet portable training augmentation strategies are designed to strengthen the cross-modal correspondence ability of our model from the view of sample. Extensive results show that our method outperforms all the state-of-the-art models on the challenging NExT-QA benchmark, which demonstrates the effectiveness of the proposed method.
updated: Wed Nov 02 2022 09:00:33 GMT+0000 (UTC)
published: Mon Apr 25 2022 10:42:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト