arXiv reaDer
ビデオからの物理システムにおける因果的発見
Causal Discovery in Physical Systems from Videos
因果関係の発見は、人間の認知の中核です。これにより、環境について推論し、以前の経験とは大きく異なる可能性のある目に見えないシナリオについて反事実的な予測を行うことができます。私たちは、グラウンドトゥルースグラフ構造の監視なしに、エンドツーエンドの方法でビデオからの因果関係の発見のタスクを検討します。特に、私たちの目標は、環境変数とオブジェクト変数の間の構造的依存関係を発見することです。つまり、動的システムの動作に因果関係がある相互作用のタイプと強度を推測します。私たちのモデルは、(a)画像から意味的に意味のある時間的に一貫したキーポイント表現を抽出する知覚モジュール、(b)検出されたキーポイントによって誘発されるグラフ分布を決定するための推論モジュール、および(c)予測できるダイナミクスモジュールで構成されます推論されたグラフを条件として未来。さまざまな構成と環境条件へのアクセス、つまり、基盤となるシステムへの未知の介入からのデータへのアクセスを想定しています。したがって、明示的な介入なしに、正しい根本的な因果グラフを発見することを期待できます。平面的なマルチボディインタラクション環境と、シャツやズボンなどのさまざまな形状のファブリックを含むシナリオで、この方法を評価します。実験は、私たちのモデルが画像の短いシーケンスから相互作用を正しく識別し、長期的な将来の予測を行うことができることを示しています。モデルによって想定される因果構造により、モデルは反事実的予測を行い、見えない相互作用グラフまたはさまざまなサイズのグラフのシステムに外挿することもできます。
Causal discovery is at the core of human cognition. It enables us to reason about the environment and make counterfactual predictions about unseen scenarios that can vastly differ from our previous experiences. We consider the task of causal discovery from videos in an end-to-end fashion without supervision on the ground-truth graph structure. In particular, our goal is to discover the structural dependencies among environmental and object variables: inferring the type and strength of interactions that have a causal effect on the behavior of the dynamical system. Our model consists of (a) a perception module that extracts a semantically meaningful and temporally consistent keypoint representation from images, (b) an inference module for determining the graph distribution induced by the detected keypoints, and (c) a dynamics module that can predict the future by conditioning on the inferred graph. We assume access to different configurations and environmental conditions, i.e., data from unknown interventions on the underlying system; thus, we can hope to discover the correct underlying causal graph without explicit interventions. We evaluate our method in a planar multi-body interaction environment and scenarios involving fabrics of different shapes like shirts and pants. Experiments demonstrate that our model can correctly identify the interactions from a short sequence of images and make long-term future predictions. The causal structure assumed by the model also allows it to make counterfactual predictions and extrapolate to systems of unseen interaction graphs or graphs of various sizes.
updated: Sun Nov 29 2020 20:47:06 GMT+0000 (UTC)
published: Wed Jul 01 2020 17:29:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト