arXiv reaDer
視覚的な質問応答のためのクロスモーダル生成拡張
Cross-Modal Generative Augmentation for Visual Question Answering
データ拡張は、マルチモーダル機械学習モデルのパフォーマンスを効果的に改善することが示されています。この論文では、複数のモダリティ間の相関関係を活用することにより、データ拡張の生成モデルを紹介します。決定論的ヒューリスティックを使用した低レベルの操作を適用する従来のデータ拡張アプローチとは異なり、私たちの方法は、変分オートエンコーダフレームワークで観測されたモダリティを条件とするターゲットモダリティのサンプルを生成するジェネレータを学習します。さらに、提案されたモデルは、その生成確率によって拡張データの信頼性を定量化することができ、ダウンストリームタスクと共同で最適化することができます。ダウンストリームタスクとしての視覚的な質問応答に関する実験は、提案された生成モデルの有効性を示しています。これにより、強力なUpDnベースのモデルを改善して、最先端のパフォーマンスを実現できます。
Data augmentation has been shown to effectively improve the performance of multimodal machine learning models. This paper introduces a generative model for data augmentation by leveraging the correlations among multiple modalities. Different from conventional data augmentation approaches that apply low-level operations with deterministic heuristics, our method learns a generator that generates samples of the target modality conditioned on observed modalities in the variational auto-encoder framework. Additionally, the proposed model is able to quantify the confidence of augmented data by its generative probability, and can be jointly optimised with a downstream task. Experiments on Visual Question Answering as downstream task demonstrate the effectiveness of the proposed generative model, which is able to improve strong UpDn-based models to achieve state-of-the-art performance.
updated: Fri Oct 22 2021 22:04:03 GMT+0000 (UTC)
published: Tue May 11 2021 04:51:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト