近年、スタイル転送やニューラル写真編集などのクリエイティブなコンテンツ世代がますます注目を集めています。これらの中で、現実世界のシーンの漫画化は、エンターテインメントや産業で有望なアプリケーションを持っています。生成された画像のスタイル効果の改善に焦点を当てた画像翻訳とは異なり、ビデオ漫画化には時間的一貫性に関する追加の要件があります。この論文では、教師なしの方法でコヒーレントなビデオ漫画化のための知覚運動の一貫性を備えた空間適応セマンティックアラインメントフレームワークを提案します。セマンティックアラインメントモジュールは、エンコーダ-デコーダアーキテクチャで失われた空間情報によって引き起こされたセマンティック構造の変形を復元するように設計されています。さらに、知覚運動の一貫性に関するスタイルに依存しない、グローバルを意識した正則化として、時空間相関マップを考案します。写真や漫画のフレームの高レベルの特徴の類似性測定から派生して、オプティカルフローの生のピクセル値を超えたグローバルなセマンティック情報をキャプチャします。さらに、類似度測定は、ドメイン固有のスタイルプロパティから時間的関係を解きほぐします。これにより、漫画画像のスタイル効果を損なうことなく、時間的一貫性を正規化できます。定性的および定量的実験は、私たちの方法が高度に文体的で時間的に一貫した漫画のビデオを生成できることを示しています。
In recent years, creative content generations like style transfer and neural photo editing have attracted more and more attention. Among these, cartoonization of real-world scenes has promising applications in entertainment and industry. Different from image translations focusing on improving the style effect of generated images, video cartoonization has additional requirements on the temporal consistency. In this paper, we propose a spatially-adaptive semantic alignment framework with perceptual motion consistency for coherent video cartoonization in an unsupervised manner. The semantic alignment module is designed to restore deformation of semantic structure caused by spatial information lost in the encoder-decoder architecture. Furthermore, we devise the spatio-temporal correlative map as a style-independent, global-aware regularization on the perceptual motion consistency. Deriving from similarity measurement of high-level features in photo and cartoon frames, it captures global semantic information beyond raw pixel-value in optical flow. Besides, the similarity measurement disentangles temporal relationships from domain-specific style properties, which helps regularize the temporal consistency without hurting style effects of cartoon images. Qualitative and quantitative experiments demonstrate our method is able to generate highly stylistic and temporal consistent cartoon videos.