マルチモダリティデータを集約して正確で信頼性の高いデータ表現を取得することは、ますます注目を集めています。手付かずの研究者は通常、CNNを採用して、独立したモダリティの特徴を抽出し、それらを融合モジュールで集約します。ただし、局所的な畳み込み特徴が限られているため、全体的なパフォーマンスは飽和状態になりつつあります。最近の研究によると、Transformerモデルは通常、マルチモダリティタスクでCNNと同等またはそれ以上に機能しますが、特徴融合に連結またはクロスアテンションを採用しているため、最適な結果が得られない可能性があります。この作業では、自己注意ベースのTransformerを再考し、マルチモダリティデータの融合と表現のための新しいMutualFormerを提案します。 MutualFormerの中核は、トークンとモダリティの両方の間で通信を行うためのトークンミキサーとモダリティミキサーの両方の設計です。具体的には、3つの主要なモジュールが含まれています。すなわち、i)モダリティ内トークンミキサーの自己注意(SA)、ii)モダリティ間ミキサーの相互拡散注意(CDA)、およびiii)集約モジュールです。提案されたCDAの主な利点は、距離空間の個々のドメインの類似性に基づいて定義されるため、クロスモダリティの類似性の計算におけるドメイン/モダリティのギャップの問題を自然に回避できることです。 MutualFormerを顕著性検出問題にうまく適用し、RGBおよび深度画像の強化された特徴を取得するための新しいアプローチを提案します。 6つの人気のあるデータセットでの広範な実験は、私たちのモデルが16のSOTAモデルと同等の結果を達成することを示しています。
Aggregating multi-modality data to obtain accurate and reliable data representation attracts more and more attention. The pristine researchers generally adopt the CNN to extract features of independent modality and aggregate them with a fusion module. However, the overall performance is becoming saturated due to limited local convolutional features. Recent studies demonstrate that Transformer models usually work comparable or even better than CNN for multi-modality task, but they simply adopt concatenation or cross-attention for feature fusion which may just obtain sub-optimal results. In this work, we re-thinking the self-attention based Transformer and propose a novel MutualFormer for multi-modality data fusion and representation. The core of MutualFormer is the design of both token mixer and modality mixer to conduct the communication among both tokens and modalities. Specifically, it contains three main modules, i.e., i) Self-attention (SA) for intra-modality token mixer, ii) Cross-diffusion attention (CDA) for inter-modality mixer and iii) Aggregation module. The main advantage of the proposed CDA is that it is defined based on individual domain similarities in the metric space which thus can naturally avoid the issue of domain/modality gap in cross-modality similarities computation. We successfully apply the MutualFormer to the saliency detection problem and propose a novel approach to obtain the reinforced features of RGB and Depth images. Extensive experiments on six popular datasets demonstrate that our model achieves comparable results with 16 SOTA models.