複雑な視覚タスクで人間のパフォーマンスを達成するために、人工システムは、巨視的なオブジェクト、動き、力などの観点から世界のかなりの量の理解を組み込む必要があります。与えられたシステムが、ゲームエンジンで構築された可能性のあるイベントと不可能なイベントのよく一致したビデオを区別できるかどうかをテストすることにより、物理学についてどの程度理解しているかこのテストでは、システムがビデオ全体の物理的妥当性スコアを計算する必要があります。偏りがなく、さまざまな基本的な物理的推論の概念をテストできます。次に、物理的に可能なビデオのみを使用して、教師なしで直感的な物理学を学習することを目的とした2つのディープニューラルネットワークシステムについて説明します。システムは、将来のセマンティックマスク予測目的でトレーニングされ、可能性のある差別タスクと不可能な差別タスクでテストされます。結果を人間のデータと比較して分析することで、次のフレーム予測アーキテクチャの可能性と限界に関する新しい洞察が得られます。
In order to reach human performance on complexvisual tasks, artificial systems need to incorporate a sig-nificant amount of understanding of the world in termsof macroscopic objects, movements, forces, etc. Inspiredby work on intuitive physics in infants, we propose anevaluation benchmark which diagnoses how much a givensystem understands about physics by testing whether itcan tell apart well matched videos of possible versusimpossible events constructed with a game engine. Thetest requires systems to compute a physical plausibilityscore over an entire video. It is free of bias and cantest a range of basic physical reasoning concepts. Wethen describe two Deep Neural Networks systems aimedat learning intuitive physics in an unsupervised way,using only physically possible videos. The systems aretrained with a future semantic mask prediction objectiveand tested on the possible versus impossible discrimi-nation task. The analysis of their results compared tohuman data gives novel insights in the potentials andlimitations of next frame prediction architectures.