arXiv reaDer
DUT:不安定なビデオを見るだけでビデオの安定化を学ぶ
DUT: Learning Video Stabilization by Simply Watching Unstable Videos
以前の深層学習ベースのビデオスタビライザーは、トレーニングのために大規模なペアの不安定なビデオと安定したビデオを必要としますが、これは収集が困難です。一方、従来の軌道ベースのスタビライザーは、タスクをいくつかのサブタスクに分割し、その後それらに取り組みます。これらのサブタスクは、手作りの機能の使用に関して、テクスチャのない閉塞領域では壊れやすいものです。このホワイトペーパーでは、DNNの表現力を活用して実際のシナリオでの課題に対処しながら、従来のスタビライザーから分割統治法のアイデアを取り入れた、教師なし学習の深い方法でビデオ安定化の問題に取り組むことを試みます。技術的には、DUTは軌道推定段階と軌道平滑化段階で構成されます。軌道推定段階では、最初にキーポイントの動きを推定し、新しいマルチホモグラフィ推定戦略と動き改良ネットワークを介してグリッドの動きをそれぞれ初期化および改良し、時間的関連付けを介してグリッドベースの軌道を取得します。軌道平滑化段階では、軌道平滑化のための動的平滑化カーネルを予測するための新しいネットワークを考案します。これは、さまざまな動的パターンを持つ軌道にうまく適応できます。キーポイントとグリッド頂点の空間的および時間的コヒーレンスを活用してトレーニング目標を策定し、教師なしトレーニングスキームを作成します。公開ベンチマークでの実験結果は、DUTが定性的および定量的に最先端の方法よりも優れていることを示しています。ソースコードはhttps://github.com/Annbless/DUTCodeで入手できます。
Previous deep learning-based video stabilizers require a large scale of paired unstable and stable videos for training, which are difficult to collect. Traditional trajectory-based stabilizers, on the other hand, divide the task into several sub-tasks and tackle them subsequently, which are fragile in textureless and occluded regions regarding the usage of hand-crafted features. In this paper, we attempt to tackle the video stabilization problem in a deep unsupervised learning manner, which borrows the divide-and-conquer idea from traditional stabilizers while leveraging the representation power of DNNs to handle the challenges in real-world scenarios. Technically, DUT is composed of a trajectory estimation stage and a trajectory smoothing stage. In the trajectory estimation stage, we first estimate the motion of keypoints, initialize and refine the motion of grids via a novel multi-homography estimation strategy and a motion refinement network, respectively, and get the grid-based trajectories via temporal association. In the trajectory smoothing stage, we devise a novel network to predict dynamic smoothing kernels for trajectory smoothing, which can well adapt to trajectories with different dynamic patterns. We exploit the spatial and temporal coherence of keypoints and grid vertices to formulate the training objectives, resulting in an unsupervised training scheme. Experiment results on public benchmarks show that DUT outperforms state-of-the-art methods both qualitatively and quantitatively. The source code is available at https://github.com/Annbless/DUTCode.
updated: Thu Jun 09 2022 08:30:07 GMT+0000 (UTC)
published: Mon Nov 30 2020 06:48:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト