arXiv reaDer
複雑な構成推論のための高密度で効率的な VideoQA
Dense but Efficient VideoQA for Intricate Compositional Reasoning
従来のビデオ質問応答 (VideoQA) データセットのほとんどが、単純な推論プロセスを必要とする簡単な質問で構成されていることはよく知られています。ただし、長いビデオには必然的に時空間軸に沿った複雑で構成的な意味構造が含まれるため、ビデオに固有の構成構造を理解するためのモデルが必要になります。このホワイト ペーパーでは、複雑な VideoQA タスクに対処するために、変形可能なアテンション メカニズムを備えたトランス アーキテクチャに基づく新しい合成 VideoQA メソッドを提案します。変形可能なアテンションは、時間的に長い範囲のフレームを効率的にカバーするために、密な視覚的特徴マップから有益な視覚的特徴のサブセットをサンプリングするために導入されています。さらに、複雑な質問文内の依存関係構造も言語埋め込みと組み合わせて、質問語間の関係を容易に理解できるようにします。広範な実験とアブレーション研究は、提案された高密度だが効率的なモデルが他のベースラインよりも優れていることを示しています。
It is well known that most of the conventional video question answering (VideoQA) datasets consist of easy questions requiring simple reasoning processes. However, long videos inevitably contain complex and compositional semantic structures along with the spatio-temporal axis, which requires a model to understand the compositional structures inherent in the videos. In this paper, we suggest a new compositional VideoQA method based on transformer architecture with a deformable attention mechanism to address the complex VideoQA tasks. The deformable attentions are introduced to sample a subset of informative visual features from the dense visual feature map to cover a temporally long range of frames efficiently. Furthermore, the dependency structure within the complex question sentences is also combined with the language embeddings to readily understand the relations among question words. Extensive experiments and ablation studies show that the suggested dense but efficient model outperforms other baselines.
updated: Wed Oct 19 2022 05:01:20 GMT+0000 (UTC)
published: Wed Oct 19 2022 05:01:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト