arXiv reaDer
マルチモーダルトランスフォーマーのスパースフュージョン
Sparse Fusion for Multimodal Transformers
マルチモーダル分類は、人間中心の機械学習のコアタスクです。情報はモダリティ間で非常に補完的であるため、精度を損なうことなく、マルチモーダル融合の前にユニモーダル情報を大幅にスパース化できます。この目的のために、メモリフットプリントと計算コストを大幅に削減しながら、既存の最先端の方法と同等のパフォーマンスを発揮する、変圧器用の新しいマルチモーダル融合方法であるスパースフュージョントランスフォーマー(SFT)を紹介します。私たちのアイデアの鍵は、クロスモダリティモデリングの前にユニモーダルトークンセットを削減するスパースプーリングブロックです。評価は、さまざまな分類タスクのために、複数のマルチモーダルベンチマークデータセットで実行されます。最先端のパフォーマンスは、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要件の最大6分の1の削減を報告しています。広範なアブレーション研究は、素朴なアプローチよりもスパース化とマルチモーダル学習を組み合わせる利点を示しています。これにより、リソースの少ないデバイスでマルチモーダル学習を可能にする道が開かれます。
Multimodal classification is a core task in human-centric machine learning. We observe that information is highly complementary across modalities, thus unimodal information can be drastically sparsified prior to multimodal fusion without loss of accuracy. To this end, we present Sparse Fusion Transformers (SFT), a novel multimodal fusion method for transformers that performs comparably to existing state-of-the-art methods while having greatly reduced memory footprint and computation cost. Key to our idea is a sparse-pooling block that reduces unimodal token sets prior to cross-modality modeling. Evaluations are conducted on multiple multimodal benchmark datasets for a wide range of classification tasks. State-of-the-art performance is obtained on multiple benchmarks under similar experiment conditions, while reporting up to six-fold reduction in computational cost and memory requirements. Extensive ablation studies showcase our benefits of combining sparsification and multimodal learning over naive approaches. This paves the way for enabling multimodal learning on low-resource devices.
updated: Wed Nov 24 2021 21:53:12 GMT+0000 (UTC)
published: Tue Nov 23 2021 16:43:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト