マルチモダリティデータを集約して信頼性の高いデータ表現を取得することは、ますます注目を集めています。最近の研究では、Transformer モデルは通常、マルチモダリティ タスクに適していることが示されています。既存のトランスフォーマーは、通常、クロスアテンション (CA) メカニズムまたは単純な連結のいずれかを採用して、モダリティギャップの問題を一般に無視する異なるモダリティ間の情報の相互作用を実現します。この作業では、Transformer を再考し、マルチモダリティ データ表現のために MutualFormer に拡張します。 Transformer の CA ではなく、MutualFormer は Cross-Diffusion Attention (CDA) の新しい設計を採用して、異なるモダリティ間の情報通信を行います。 CA と比較して、提案された CDA の主な利点は 3 つの側面です。まず、CDA のクロスアフィニティは、メトリック空間の個々のモダリティ アフィニティに基づいて定義されるため、機能ベースの CA 定義におけるモダリティ/ドメイン ギャップの問題を自然に回避できます。第二に、CDA は、マルチモダリティ表現に使用したり、既存の CA モデルの最適化後の機能として使用できる一般的なスキームを提供します。第三に、CDA は効率的に実施されます。 MutualFormer をさまざまなマルチモダリティ学習タスク (RGB-Depth SOD、RGB-NIR オブジェクト ReID) に適用することに成功しました。広範な実験により、提案された MutualFormer の有効性が実証されています。
Aggregating multi-modality data to obtain reliable data representation attracts more and more attention. Recent studies demonstrate that Transformer models usually work well for multi-modality tasks. Existing Transformers generally either adopt the Cross-Attention (CA) mechanism or simple concatenation to achieve the information interaction among different modalities which generally ignore the issue of modality gap. In this work, we re-think Transformer and extend it to MutualFormer for multi-modality data representation. Rather than CA in Transformer, MutualFormer employs our new design of Cross-Diffusion Attention (CDA) to conduct the information communication among different modalities. Comparing with CA, the main advantages of the proposed CDA are three aspects. First, the crossaffinities in CDA are defined based on the individual modality affinities in the metric space which thus can naturally avoid the issue of modality/domain gap in feature based CA definition. Second, CDA provides a general scheme which can either be used for multimodality representation or serve as the post-optimization for existing CA models. Third, CDA is implemented efficiently. We successfully apply the MutualFormer on different multi-modality learning tasks (i.e., RGB-Depth SOD, RGB-NIR object ReID). Extensive experiments demonstrate the effectiveness of the proposed MutualFormer.