マルチモーダル データに基づく Visual Question Answering (VQA) は、家庭用ロボットや医療診断などの現実のアプリケーションを容易にします。重要な課題の 1 つは、機密性の懸念から集中的なデータ収集が控えられているさまざまなクライアント モデル向けに、堅牢な分散型学習フレームワークを考案することです。この研究は、マルチモーダル モデルを表現モジュールと対照モジュールに分離し、モジュール間の勾配共有とクライアント間の重み共有を活用することで、プライバシー保護 VQA に取り組むことを目的としています。この目的を達成するために、分散クライアントのデータ分散全体でグローバルなマルチモーダル モデルをトレーニングする双方向対照分割学習 (BiCSL) を提案します。分散モジュールのより効率的な自己教師あり学習を可能にする対照的な損失を採用します。 5 つの SOTA VQA モデルに基づいて VQA-v2 データセットに対して包括的な実験が実行され、提案された方法の有効性が実証されています。さらに、VQA に対するデュアルキー バックドア攻撃に対する BiCSL の堅牢性を検査します。その結果、BiCSL は、集中型学習方法と比較して、マルチモーダル敵対的攻撃に対してはるかに優れた堅牢性を示し、分散型マルチモーダル学習への有望なアプローチを提供します。
Visual Question Answering (VQA) based on multi-modal data facilitates real-life applications such as home robots and medical diagnoses. One significant challenge is to devise a robust decentralized learning framework for various client models where centralized data collection is refrained due to confidentiality concerns. This work aims to tackle privacy-preserving VQA by decoupling a multi-modal model into representation modules and a contrastive module and leveraging inter-module gradients sharing and inter-client weight sharing. To this end, we propose Bidirectional Contrastive Split Learning (BiCSL) to train a global multi-modal model on the entire data distribution of decentralized clients. We employ the contrastive loss that enables a more efficient self-supervised learning of decentralized modules. Comprehensive experiments are conducted on the VQA-v2 dataset based on five SOTA VQA models, demonstrating the effectiveness of the proposed method. Furthermore, we inspect BiCSL's robustness against a dual-key backdoor attack on VQA. Consequently, BiCSL shows much better robustness to the multi-modal adversarial attack compared to the centralized learning method, which provides a promising approach to decentralized multi-modal learning.