施設間で複数のニューロイメージングデータセットをプールすると、弱すぎて検出できない可能性のある関連性(たとえば、リスク要因と疾患の結果の間)を評価する際の統計的検出力を向上させることができます。変動の原因が1つしかない場合(たとえば、異なるスキャナー)、多くのシナリオでは、ドメインの適応と表現の分布の一致で十分な場合があります。しかし、測定に同時に影響を与える複数の厄介な変数が存在する場合、データセットのプールには固有の課題があります。たとえば、データの変動は、取得方法と参加者の人口統計(性別、年齢)の両方から生じる可能性があります。不変表現学習自体は、データ生成プロセスを完全にモデル化するには適していません。この論文では、因果推論に関する古典的な結果の単純な使用とともに、構造化された空間でインスタンス化された同変表現学習(ニューラルネットワークの対称性を研究するため)に関する最近の結果をもたらすことが効果的な実用的な解決策をどのように提供するかを示します。特に、モデルがいくつかの仮定の下で複数の迷惑変数を処理できるようにし、サンプルの大部分を削除する必要があるシナリオでプールされた科学データセットの分析を可能にする方法を示します。
Pooling multiple neuroimaging datasets across institutions often enables improvements in statistical power when evaluating associations (e.g., between risk factors and disease outcomes) that may otherwise be too weak to detect. When there is only a single source of variability (e.g., different scanners), domain adaptation and matching the distributions of representations may suffice in many scenarios. But in the presence of more than one nuisance variable which concurrently influence the measurements, pooling datasets poses unique challenges, e.g., variations in the data can come from both the acquisition method as well as the demographics of participants (gender, age). Invariant representation learning, by itself, is ill-suited to fully model the data generation process. In this paper, we show how bringing recent results on equivariant representation learning (for studying symmetries in neural networks) instantiated on structured spaces together with simple use of classical results on causal inference provides an effective practical solution. In particular, we demonstrate how our model allows dealing with more than one nuisance variable under some assumptions and can enable analysis of pooled scientific datasets in scenarios that would otherwise entail removing a large portion of the samples.