アーティストやビデオゲームデザイナーは、スプライトのライブラリ(オブジェクトやキャラクターのテクスチャパッチ)を使用して2Dアニメーションを作成することがよくあります。スプライトベースのビデオアニメーションを、自己監視方式で繰り返し発生するグラフィック要素のもつれを解いた表現に分解するディープラーニングアプローチを提案します。透過的な可能性のあるパッチの辞書を共同で学習し、それらをキャンバスに配置するネットワークをトレーニングすることで、スプライトベースのコンテンツを、編集や分析などのダウンストリームタスクで簡単に使用できるスパースで一貫性のある明示的な表現に分解します。私たちのフレームワークは、監督なしで画像コレクションの繰り返し視覚パターンを発見するための有望なアプローチを提供します。
Artists and video game designers often construct 2D animations using libraries of sprites -- textured patches of objects and characters. We propose a deep learning approach that decomposes sprite-based video animations into a disentangled representation of recurring graphic elements in a self-supervised manner. By jointly learning a dictionary of possibly transparent patches and training a network that places them onto a canvas, we deconstruct sprite-based content into a sparse, consistent, and explicit representation that can be easily used in downstream tasks, like editing or analysis. Our framework offers a promising approach for discovering recurring visual patterns in image collections without supervision.