arXiv reaDer
注釈なしのオブジェクト中心のビデオ予測
Object-centric Video Prediction without Annotation
世界と対話するために、エージェントは世界のダイナミクスの結果を予測できなければなりません。カメラはユビキタスで強力なセンサーであるため、これらのダイナミクスについて学ぶための自然なアプローチは、ビデオ予測によるものです。ピクセル間の直接ビデオ予測は困難であり、既知の事前確率を利用せず、学習したダイナミクスを利用するための簡単なインターフェイスを提供しません。オブジェクト中心のビデオ予測は、世界がオブジェクトで構成されているという単純な事前確率を利用し、制御のためのより自然なインターフェイスを提供することにより、これらの問題の解決策を提供します。ただし、既存のオブジェクト中心のビデオ予測パイプラインでは、ビデオシーケンスのトレーニングで高密度のオブジェクト注釈が必要です。この作業では、強力なコンピュータービジョンモデルからの事前情報を利用するオブジェクト中心のビデオ予測方法である、注釈なしのオブジェクト中心の予測(OPA)を紹介します。落下する積み重ねられたオブジェクトのビデオシーケンスで構成されるデータセットでメソッドを検証し、エンドツーエンドのビデオ予測トレーニングを通じて環境内の知覚モデルを適応させる方法を示します。
In order to interact with the world, agents must be able to predict the results of the world's dynamics. A natural approach to learn about these dynamics is through video prediction, as cameras are ubiquitous and powerful sensors. Direct pixel-to-pixel video prediction is difficult, does not take advantage of known priors, and does not provide an easy interface to utilize the learned dynamics. Object-centric video prediction offers a solution to these problems by taking advantage of the simple prior that the world is made of objects and by providing a more natural interface for control. However, existing object-centric video prediction pipelines require dense object annotations in training video sequences. In this work, we present Object-centric Prediction without Annotation (OPA), an object-centric video prediction method that takes advantage of priors from powerful computer vision models. We validate our method on a dataset comprised of video sequences of stacked objects falling, and demonstrate how to adapt a perception model in an environment through end-to-end video prediction training.
updated: Thu May 06 2021 16:42:38 GMT+0000 (UTC)
published: Thu May 06 2021 16:42:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト