arXiv reaDer
ビデオ修復のためのプログレッシブ時間的特徴調整ネットワーク
Progressive Temporal Feature Alignment Network for Video Inpainting
ビデオ修復は、時空間的な「破損した」領域をもっともらしいコンテンツで埋めることを目的としています。この目標を達成するには、未知のコンテンツを忠実に幻覚させるために、隣接するフレームからの対応を見つける必要があります。現在の方法は、注意、フローベースのワーピング、または3D時間畳み込みによってこの目標を達成します。ただし、フローベースのワーピングは、オプティカルフローが正確でない場合にアーティファクトを作成する可能性がありますが、時間的畳み込みは空間的な不整合に悩まされる可能性があります。現在のフレームから抽出された特徴を、オプティカルフローを使用して隣接するフレームからワープされた特徴で徐々に強化する「プログレッシブ時間的特徴整列ネットワーク」を提案します。私たちのアプローチは、時間的特徴の伝播段階での空間的不整合を修正し、修復されたビデオの視覚的品質と時間的一貫性を大幅に改善します。提案されたアーキテクチャを使用して、既存のディープラーニングアプローチと比較して、DAVISおよびFVIデータセットで最先端のパフォーマンスを実現します。コードはhttps://github.com/MaureenZOU/TSAMで入手できます。
Video inpainting aims to fill spatio-temporal "corrupted" regions with plausible content. To achieve this goal, it is necessary to find correspondences from neighbouring frames to faithfully hallucinate the unknown content. Current methods achieve this goal through attention, flow-based warping, or 3D temporal convolution. However, flow-based warping can create artifacts when optical flow is not accurate, while temporal convolution may suffer from spatial misalignment. We propose 'Progressive Temporal Feature Alignment Network', which progressively enriches features extracted from the current frame with the feature warped from neighbouring frames using optical flow. Our approach corrects the spatial misalignment in the temporal feature propagation stage, greatly improving visual quality and temporal consistency of the inpainted videos. Using the proposed architecture, we achieve state-of-the-art performance on the DAVIS and FVI datasets compared to existing deep learning approaches. Code is available at https://github.com/MaureenZOU/TSAM.
updated: Thu Apr 08 2021 04:50:33 GMT+0000 (UTC)
published: Thu Apr 08 2021 04:50:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト