アンカー回帰: 異種データが因果関係を満たす
Anchor regression: heterogeneous data meets causality
訓練データとは分布が異なるデータセット上の共変量の集合から応答変数を予測する問題を考える。因果パラメータは、新しい分布において、多くの変数が介入によって影響を受けるか、一部の変数だけが影響を受けるが摂動が強い場合、予測精度の点で最適である。訓練分布とテスト分布がシフトによって異なる場合、因果パラメータは、上記のタスクでうまく実行するには保守的すぎるかもしれない。これは、最小二乗損失の修正を考慮することで因果最小化問題の緩和を解くために、異質変数を利用する方法であるアンカー回帰を動機づける。この手法は、通常の最小二乗と二段最小二乗の解の間の補間を自然に提供する。推定器が線形クラスのシフトに対する分布のロバスト性という点で予測保証を満たすことを証明する; これらの保証は器量変数の仮定が違反していても有効である。アンカー回帰と最小二乗法が同じ答えを提供する場合(アンカー安定性)、OLSのパラメータが特定の分布変化の下で不変であることを立証する。アンカー回帰は、再現性を向上させ、分布のシフトから保護することが実証的に示されている。
We consider the problem of predicting a response variable from a set of covariates on a data set that differs in distribution from the training data. Causal parameters are optimal in terms of predictive accuracy if in the new distribution either many variables are affected by interventions or only some variables are affected, but the perturbations are strong. If the training and test distributions differ by a shift, causal parameters might be too conservative to perform well on the above task. This motivates anchor regression, a method that makes use of exogeneous variables to solve a relaxation of the causal minimax problem by considering a modification of the least-squares loss. The procedure naturally provides an interpolation between the solutions of ordinary least squares and two-stage least squares. We prove that the estimator satisfies predictive guarantees in terms of distributional robustness against shifts in a linear class; these guarantees are valid even if the instrumental variables assumptions are violated. If anchor regression and least squares provide the same answer (anchor stability), we establish that OLS parameters are invariant under certain distributional changes. Anchor regression is shown empirically to improve replicability and protect against distributional shifts.
updated: Fri May 08 2020 18:50:04 GMT+0000 (UTC)
published: Thu Jan 18 2018 20:32:09 GMT+0000 (UTC)
