バイリニアプーリング(BLP)は、主にVQAモデル用に開発されたさまざまなモダリティの機能を融合するために最近開発された一連の操作を指します。双線形(外積)展開は、モデルが2つの特徴空間間の相互作用を学習するように促し、VQAベンチマークでの「より単純な」ベクトル演算(連結および要素ごとの加算/乗算)を実験的に上回ったと考えられています。連続するBLP手法は、より低い計算コストでより高いパフォーマンスを生み出し、多くの場合、注意メカニズムと一緒に実装されます。ただし、VQAが大幅に進歩したにもかかわらず、BLPメソッドは、最近調査されたビデオ質問応答(video-QA)タスクに広く適用されていません。このホワイトペーパーでは、BLP手法をさまざまなビデオQAベンチマーク、つまりTVQA、TGIF-QA、Ego-VQA、MSVD-QAに適用することで、この調査のギャップを埋め始めます。 TVQAベースラインモデルと最近提案された異種メモリエンチャントマルチモーダル注意(HME)モデルに関する結果を共有します。私たちの実験には、既存のモデルの機能の連結をBLPに置き換えることと、「デュアルストリーム」モデルと名付けたBLPに対応するためのTVQAベースラインの修正バージョンの両方が含まれます。 BLPの比較的単純な統合は、これらのビデオQAベンチマークのパフォーマンスを向上させず、ほとんどの場合害を及ぼすことがわかりました。最近提案された理論的なマルチモーダル融合分類法を使用して、ビデオQAベンチマークのBLP主導のパフォーマンス向上を以前のVQAモデルよりも達成するのが難しい理由についての洞察を提供します。 BLPをビデオQAに適用する際に考慮すべき、いくつかの追加の「ベストプラクティス」を提案します。ビデオQAモデルでは、「冗長な」融合の計算コストを回避するために、BLPからの複雑な表現の可能性が実際に必要な場所を慎重に検討する必要があることを強調します。
Bilinear pooling (BLP) refers to a family of operations recently developed for fusing features from different modalities predominantly developed for VQA models. A bilinear (outer-product) expansion is thought to encourage models to learn interactions between two feature spaces and has experimentally outperformed `simpler' vector operations (concatenation and element-wise-addition/multiplication) on VQA benchmarks. Successive BLP techniques have yielded higher performance with lower computational expense and are often implemented alongside attention mechanisms. However, despite significant progress in VQA, BLP methods have not been widely applied to more recently explored video question answering (video-QA) tasks. In this paper, we begin to bridge this research gap by applying BLP techniques to various video-QA benchmarks, namely: TVQA, TGIF-QA, Ego-VQA and MSVD-QA. We share our results on the TVQA baseline model, and the recently proposed heterogeneous-memory-enchanced multimodal attention (HME) model. Our experiments include both simply replacing feature concatenation in the existing models with BLP, and a modified version of the TVQA baseline to accommodate BLP we name the `dual-stream' model. We find that our relatively simple integration of BLP does not increase, and mostly harms, performance on these video-QA benchmarks. Using recently proposed theoretical multimodal fusion taxonomies, we offer insight into why BLP-driven performance gain for video-QA benchmarks may be more difficult to achieve than in earlier VQA models. We suggest a few additional `best-practices' to consider when applying BLP to video-QA. We stress that video-QA models should carefully consider where the complex representational potential from BLP is actually needed to avoid computational expense on `redundant' fusion.