arXiv reaDer
コンピュータービジョンは行動にとって重要ですか?
Does computer vision matter for action?
  コンピュータービジョンは、シーンコンテンツの表現を生成します。多くのコンピュータービジョンの研究は、これらの中間表現が行動に役立つという前提に基づいています。機械学習とロボット工学の交差点での最近の研究では、明示的な中間表現なしで、ピクセルからアクションまで、手元のタスクに対して感覚運動システムを直接訓練することにより、この仮定を疑問視しています。したがって、私たちの仕事の中心的な問題は、コンピュータービジョンが行動にとって重要なのでしょうか?没入型シミュレーションを介してこの質問とその派生を調査します。これにより、制御された再現可能な実験を大規模に実施できます。没入型の3次元環境を装備して、都市部の運転、オフロードトレイルの横断、戦闘などの課題をシミュレートします。私たちの主な発見は、コンピュータービジョンが重要であることです。中間表現を備えたモデルは、より速く訓練され、より高いタスクパフォーマンスを達成し、以前は見えなかった環境により良く一般化されます。作業を要約し、結果を説明するビデオは、https://youtu.be/4MfWa2yZ0Jcで見つけることができます。
Computer vision produces representations of scene content. Much computer vision research is predicated on the assumption that these intermediate representations are useful for action. Recent work at the intersection of machine learning and robotics calls this assumption into question by training sensorimotor systems directly for the task at hand, from pixels to actions, with no explicit intermediate representations. Thus the central question of our work: Does computer vision matter for action? We probe this question and its offshoots via immersive simulation, which allows us to conduct controlled reproducible experiments at scale. We instrument immersive three-dimensional environments to simulate challenges such as urban driving, off-road trail traversal, and battle. Our main finding is that computer vision does matter. Models equipped with intermediate representations train faster, achieve higher task performance, and generalize better to previously unseen environments. A video that summarizes the work and illustrates the results can be found at https://youtu.be/4MfWa2yZ0Jc
updated: Tue Oct 22 2019 06:33:45 GMT+0000 (UTC)
published: Thu May 30 2019 07:18:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト