ビデオから時間的および因果的イベントについて推論する能力は、人間の知能の中核にあります。ただし、ほとんどのビデオ推論ベンチマークは、因果構造ではなく、複雑な視覚および言語入力からのパターン認識に焦点を当てています。補完的な問題を研究し、単純な視覚的外観を持つオブジェクトのビデオの背後にある時間的および因果構造を調査します。この目的のために、幅広い推論タスクで計算モデルを体系的に評価するための診断ビデオデータセットであるビデオ表現および推論のためのコリジョンイベント(CLEVRER)を紹介します。人間のカジュアルな判断の理論に動機付けられたCLEVRERには、記述的(例:「何色」)、説明的(「何に責任がある」)、予測的(「次に何が起こるか」)、反事実的(仮に")。ベンチマークで視覚的推論のためのさまざまな最新モデルを評価します。これらのモデルは知覚ベースのタスク(説明的)で成功しますが、因果的タスク(説明的、予測的、反事実的)では不十分であり、因果推論の原則的なアプローチには、知覚する複雑な視覚的入力と言語入力の両方の機能を組み込む必要があることを示唆しています基礎となるダイナミクスと因果関係を理解します。また、シンボリック表現を介してこれらのコンポーネントを明示的に結合するオラクルモデルを研究します。
The ability to reason about temporal and causal events from videos lies at the core of human intelligence. Most video reasoning benchmarks, however, focus on pattern recognition from complex visual and language input, instead of on causal structure. We study the complementary problem, exploring the temporal and causal structures behind videos of objects with simple visual appearance. To this end, we introduce the CoLlision Events for Video REpresentation and Reasoning (CLEVRER), a diagnostic video dataset for systematic evaluation of computational models on a wide range of reasoning tasks. Motivated by the theory of human casual judgment, CLEVRER includes four types of questions: descriptive (e.g., "what color"), explanatory ("what is responsible for"), predictive ("what will happen next"), and counterfactual ("what if"). We evaluate various state-of-the-art models for visual reasoning on our benchmark. While these models thrive on the perception-based task (descriptive), they perform poorly on the causal tasks (explanatory, predictive and counterfactual), suggesting that a principled approach for causal reasoning should incorporate the capability of both perceiving complex visual and language inputs, and understanding the underlying dynamics and causal relations. We also study an oracle model that explicitly combines these components via symbolic representations.