不均衡問題は機械学習の分野に広く普及しており、サンプルのモダリティ間の本質的な不一致によって引き起こされるマルチモーダル学習領域にも存在します。最近の研究では、モダリティの不均衡問題をアルゴリズムの観点から解決しようと試みていますが、データセット内のモダリティの偏りの影響を完全には分析していません。具体的には、既存のマルチモーダル データセットは通常、特定のタスクの下で収集され、ほとんどの条件で 1 つのモダリティが他のモダリティよりも優れたパフォーマンスを発揮する傾向があります。この研究では、モダリティバイアスの影響を包括的に調査するために、まずサンプルごとのモダリティの不一致を推定することにより、既存のデータセットを異なるサブセットに分割しました。我々は驚くべきことに、既存の不均衡アルゴリズムを備えた多峰性モデルは、モダリティの偏りに従って、特定のサブセット上で一貫して単峰性モデルよりもパフォーマンスが低いことを発見しました。モダリティバイアスの影響をさらに調査し、既存の不均衡アルゴリズムの有効性を分析するために、データセット全体にモダリティの不一致が均一に分散されたバランスのとれた視聴覚データセットを構築します。次に、既存の不均衡アルゴリズムを再評価するために広範な実験を実施し、いくつかの興味深い発見を導き出します。既存のアルゴリズムはモダリティ間の妥協点を提供するだけであり、サンプルの大きなモダリティの不一致に悩まされます。これらの発見がモダリティの不均衡問題に関する将来の研究を促進する可能性があることを願っています。
The imbalance problem is widespread in the field of machine learning, which also exists in multimodal learning areas caused by the intrinsic discrepancy between modalities of samples. Recent works have attempted to solve the modality imbalance problem from algorithm perspective, however, they do not fully analyze the influence of modality bias in datasets. Concretely, existing multimodal datasets are usually collected under specific tasks, where one modality tends to perform better than other ones in most conditions. In this work, to comprehensively explore the influence of modality bias, we first split existing datasets into different subsets by estimating sample-wise modality discrepancy. We surprisingly find that: the multimodal models with existing imbalance algorithms consistently perform worse than the unimodal one on specific subsets, in accordance with the modality bias. To further explore the influence of modality bias and analyze the effectiveness of existing imbalance algorithms, we build a balanced audiovisual dataset, with uniformly distributed modality discrepancy over the whole dataset. We then conduct extensive experiments to re-evaluate existing imbalance algorithms and draw some interesting findings: existing algorithms only provide a compromise between modalities and suffer from the large modality discrepancy of samples. We hope that these findings could facilitate future research on the modality imbalance problem.