CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning
 コンピュータービジョンは、大規模な監視対象データセットでトレーニングされた深い機能を介して主に推進され、パフォーマンスに劇的な革命を起こしました。ただし、これらの改善の多くは静的画像分析に重点を置いています。ビデオの理解では、かなり穏やかな改善が見られました。新しいデータセットと時空間モデルが提案されているにもかかわらず、単純なフレームごとの分類方法は、依然として依然として競争力を維持しています。現在のビデオデータセットは、時間的構造の変動を小さくできるシーンとオブジェクトの構造に対する暗黙のバイアスに悩まされていると私たちは考えます。この作業では、完全に観測可能で制御可能なオブジェクトとシーンのバイアスを備えたビデオデータセットを構築します。これには、解決するために時空間的な理解が本当に必要です。 CATERという名前のデータセットは、標準の3Dオブジェクトのライブラリを使用して合成的にレンダリングされ、長期的な推論を必要とするオブジェクトの動きの構成を認識する能力をテストします。 CATERは、困難なデータセットであることに加えて、完全に観察可能で制御可能であることにより、現代の時空間ビデオアーキテクチャを分析するための大量の診断ツールも提供します。 CATERを使用して、最新のディープビデオアーキテクチャのいくつかについての洞察を提供します。
Computer vision has undergone a dramatic revolution in performance, driven in large part through deep features trained on large-scale supervised datasets. However, much of these improvements have focused on static image analysis; video understanding has seen rather modest improvements. Even though new datasets and spatiotemporal models have been proposed, simple frame-by-frame classification methods often still remain competitive. We posit that current video datasets are plagued with implicit biases over scene and object structure that can dwarf variations in temporal structure. In this work, we build a video dataset with fully observable and controllable object and scene bias, and which truly requires spatiotemporal understanding in order to be solved. Our dataset, named CATER, is rendered synthetically using a library of standard 3D objects, and tests the ability to recognize compositions of object movements that require long-term reasoning. In addition to being a challenging dataset, CATER also provides a plethora of diagnostic tools to analyze modern spatiotemporal video architectures by being completely observable and controllable. Using CATER, we provide insights into some of the most recent state of the art deep video architectures.
updated: Sun Apr 05 2020 03:39:21 GMT+0000 (UTC)
published: Thu Oct 10 2019 17:52:19 GMT+0000 (UTC)
