arXiv reaDer
高解像度の人間のビデオ合成のための固有の時間的正則化
Intrinsic Temporal Regularization for High-resolution Human Video Synthesis
画像処理パイプラインをビデオドメインに拡張するには、時間的な一貫性が非常に重要です。ビデオドメインは、隣接するフレームでフローベースのワーピングエラーが発生することがよくあります。しかし、人間のビデオ合成の場合、ソースビデオとターゲットビデオの間の不整合、および正確なフロー推定の難しさのために、このようなスキームの信頼性は低くなります。この論文では、これらの問題を軽減するための効果的な内在的時間正則化スキームを提案します。ここで、内在的信頼マップはフレームジェネレータを介して推定され、時間損失変調を介した動き推定を調整します。これにより、時間的損失勾配をフロントエンドモーション推定器に直接バックプロパゲーションするためのショートカットが作成され、出力ビデオのトレーニングの安定性と時間的コヒーレンスが向上します。固有の時間規制を単一画像ジェネレーターに適用し、時間的にコヒーレントでリアルな視覚的詳細を備えた512×512解像度のヒューマンアクションビデオを生成できる強力な「インターネット」を実現します。広範な実験により、提案されたインターネットがいくつかの競合するベースラインよりも優れていることが実証されています。
Temporal consistency is crucial for extending image processing pipelines to the video domain, which is often enforced with flow-based warping error over adjacent frames. Yet for human video synthesis, such scheme is less reliable due to the misalignment between source and target video as well as the difficulty in accurate flow estimation. In this paper, we propose an effective intrinsic temporal regularization scheme to mitigate these issues, where an intrinsic confidence map is estimated via the frame generator to regulate motion estimation via temporal loss modulation. This creates a shortcut for back-propagating temporal loss gradients directly to the front-end motion estimator, thus improving training stability and temporal coherence in output videos. We apply our intrinsic temporal regulation to single-image generator, leading to a powerful "INTERnet" capable of generating 512×512 resolution human action videos with temporal-coherent, realistic visual details. Extensive experiments demonstrate the superiority of proposed INTERnet over several competitive baselines.
updated: Fri Dec 11 2020 05:29:45 GMT+0000 (UTC)
published: Fri Dec 11 2020 05:29:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト