arXiv reaDer
静止画像からオプティカルフローを学ぶ
Learning optical flow from still images
このホワイトペーパーでは、オプティカルフローネットワークをトレーニングするためのデータの不足について説明し、ラベル付きの合成データセットやラベルなしの実際のビデオなど、既存のソースの制限に焦点を当てます。具体的には、すぐに利用できる単一の実際の画像から正確なグラウンドトゥルースオプティカルフロー注釈を迅速かつ大量に生成するためのフレームワークを紹介します。画像が与えられた場合、既成の単眼深度推定ネットワークを使用して、観測されたシーンのもっともらしい点群を構築します。次に、既知の動きベクトルと回転角を使用して再構築された環境でカメラを仮想的に移動し、新しいビューと、入力画像の各ピクセルを新しいフレームのピクセルに接続する対応するオプティカルフローフィールドの両方を合成できるようにします。最先端のオプティカルフローネットワークは、データを使用してトレーニングすると、注釈付きの合成データセットまたはラベルのないビデオでトレーニングされた同じモデルと比較して、目に見えない実際のデータよりも優れた一般化を実現し、合成画像と組み合わせるとより優れた専門性を実現します。
This paper deals with the scarcity of data for training optical flow networks, highlighting the limitations of existing sources such as labeled synthetic datasets or unlabeled real videos. Specifically, we introduce a framework to generate accurate ground-truth optical flow annotations quickly and in large amounts from any readily available single real picture. Given an image, we use an off-the-shelf monocular depth estimation network to build a plausible point cloud for the observed scene. Then, we virtually move the camera in the reconstructed environment with known motion vectors and rotation angles, allowing us to synthesize both a novel view and the corresponding optical flow field connecting each pixel in the input image to the one in the new frame. When trained with our data, state-of-the-art optical flow networks achieve superior generalization to unseen real data compared to the same models trained either on annotated synthetic datasets or unlabeled videos, and better specialization if combined with synthetic images.
updated: Thu Apr 08 2021 17:59:58 GMT+0000 (UTC)
published: Thu Apr 08 2021 17:59:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト