arXiv reaDer
2Dアニメーション補間の知覚品質の改善
Improving the Perceptual Quality of 2D Animation Interpolation
従来の2Dアニメーションは労働集約的であり、多くの場合、アニメーターは1秒あたり12の動きを手動で描く必要があります。自動フレーム補間はこの負担を軽減する可能性がありますが、2Dアニメーションに固有の芸術的効果により、フォトリアリスティックな領域と比較してビデオ合成が特に困難になります。フレームレートが低いと、変位とオクルージョンが大きくなり、離散的な知覚要素(線や単色領域など)がテクスチャ指向の畳み込みネットワークに問題を引き起こし、誇張された非線形の動きがトレーニングデータの収集を妨げます。以前の作業では、これらの問題に対処しようとしましたが、スケーラブルでない方法を使用し、ピクセルパーフェクトなパフォーマンスに重点を置いていました。対照的に、私たちはこの芸術的領域の知覚品質をより適切に中心としたスケーラブルなシステムを構築します。まず、トレーニング可能なパラメータを減らして知覚メトリックの収束を改善するために、シンプルでありながら効果的なオクルージョンインペインティング技術を備えた軽量アーキテクチャを提案します。次に、ユークリッド距離変換を活用してキーラインと領域構造の保存を改善する新しい補助モジュールを設計します。第3に、動きの非線形性を定量的に除外することにより、このタスク用に手動で収集された既存のデータセットを自動的に2倍にし、モデルの一般化を改善できるようにします。最後に、ユーザー調査を通じて、LPIPSと面取り距離をPSNRとSSIMよりも強く推奨するものとして確立し、2Dアニメーションドメインでの知覚品質にシステムが重点を置いていることを検証します。
Traditional 2D animation is labor-intensive, often requiring animators to manually draw twelve illustrations per second of movement. While automatic frame interpolation may ease this burden, the artistic effects inherent to 2D animation make video synthesis particularly challenging compared to in the photorealistic domain. Lower framerates result in larger displacements and occlusions, discrete perceptual elements (e.g. lines and solid-color regions) pose difficulties for texture-oriented convolutional networks, and exaggerated nonlinear movements hinder training data collection. Previous work tried addressing these issues, but used unscalable methods and focused on pixel-perfect performance. In contrast, we build a scalable system more appropriately centered on perceptual quality for this artistic domain. Firstly, we propose a lightweight architecture with a simple yet effective occlusion-inpainting technique to improve convergence on perceptual metrics with fewer trainable parameters. Secondly, we design a novel auxiliary module that leverages the Euclidean distance transform to improve the preservation of key line and region structures. Thirdly, we automatically double the existing manually-collected dataset for this task by quantitatively filtering out movement nonlinearities, allowing us to improve model generalization. Finally, we establish LPIPS and chamfer distance as strongly preferable to PSNR and SSIM through a user study, validating our system's emphasis on perceptual quality in the 2D animation domain.
updated: Wed Nov 24 2021 20:51:29 GMT+0000 (UTC)
published: Wed Nov 24 2021 20:51:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト