私たちの仕事は、GANベースのビデオ生成タスクの時間的自己監視を探ります。敵対的なトレーニングでは、さまざまな領域の生成モデルが正常に生成されますが、生成されたデータの時間的関係はあまり調査されません。自然な時間的変化は、シーケンシャルな生成タスクにとって重要です。ビデオ超解像と対になっていないビデオ翻訳。前者の場合、最新の方法では、敵対的なトレーニングよりも、L ^ 2などの単純なノルム損失が優先されます。しかしながら、それらの平均化の性質は、空間的詳細の望ましくない欠如を伴う時間的に滑らかな結果に容易につながる。対になっていないビデオ翻訳の場合、既存のアプローチはジェネレーターネットワークを変更して、時空間サイクルの一貫性を形成します。対照的に、学習目標の改善に焦点を当て、時間的に自己管理されたアルゴリズムを提案します。両方のタスクについて、時間の敵対的な学習が、空間の詳細を犠牲にすることなく時間的にコヒーレントなソリューションを達成するための鍵であることを示します。また、長期的な時間的一貫性を改善するために、新しいピンポン損失を提案します。詳細な機能を低下させることなく、繰り返し発生するネットワークが一時的にアーティファクトを蓄積するのを効果的に防ぎます。さらに、時間的進化の正確さと知覚的品質を定量的に評価するための最初のメトリックセットを提案します。一連のユーザー調査により、これらの指標で計算されたランキングが確認されています。コード、データ、モデル、結果は、https://github.com/thunil/TecoGANで提供されます。プロジェクトページhttps://ge.in.tum.de/publications/2019-tecogan-chu/には補足資料が含まれています。
Our work explores temporal self-supervision for GAN-based video generation tasks. While adversarial training successfully yields generative models for a variety of areas, temporal relationships in the generated data are much less explored. Natural temporal changes are crucial for sequential generation tasks, e.g. video super-resolution and unpaired video translation. For the former, state-of-the-art methods often favor simpler norm losses such as L^2 over adversarial training. However, their averaging nature easily leads to temporally smooth results with an undesirable lack of spatial detail. For unpaired video translation, existing approaches modify the generator networks to form spatio-temporal cycle consistencies. In contrast, we focus on improving learning objectives and propose a temporally self-supervised algorithm. For both tasks, we show that temporal adversarial learning is key to achieving temporally coherent solutions without sacrificing spatial detail. We also propose a novel Ping-Pong loss to improve the long-term temporal consistency. It effectively prevents recurrent networks from accumulating artifacts temporally without depressing detailed features. Additionally, we propose a first set of metrics to quantitatively evaluate the accuracy as well as the perceptual quality of the temporal evolution. A series of user studies confirm the rankings computed with these metrics. Code, data, models, and results are provided at https://github.com/thunil/TecoGAN. The project page https://ge.in.tum.de/publications/2019-tecogan-chu/ contains supplemental materials.