さまざまなユーザーのニーズを満たすために、グラフィック レイアウト生成のさまざまなサブタスクが近年集中的に調査されています。既存の研究では、通常、多様な入出力形式、専用のモデル アーキテクチャ、およびさまざまな学習方法を備えたタスク固有の方法が提案されています。しかし、これらの専門的なアプローチは、目に見えないサブタスクへの適応を困難にし、異なるサブタスク間の知識共有を妨げ、汎用モデルを考案する傾向に反します。この作業では、グラフィック レイアウト生成のさまざまなサブタスクを統一された方法で処理する UniLayout を提案します。まず、サブタスクのさまざまな入力と出力をトークンのシーケンスとして一様に表現します。次に、統一されたシーケンス形式に基づいて、さまざまなサブタスクのトランスフォーマーを備えた同一のエンコーダー/デコーダー アーキテクチャを自然に活用します。さらに、上記の 2 種類の統合に基づいて、すべてのサブタスクを同時にサポートする単一のモデルをさらに開発します。 2 つの公開データセットでの実験では、UniLayout はシンプルでありながら、以前のタスク固有の方法よりも大幅に優れていることが示されています。
To satisfy various user needs, different subtasks of graphic layout generation have been explored intensively in recent years. Existing studies usually propose task-specific methods with diverse input-output formats, dedicated model architectures, and different learning methods. However, those specialized approaches make the adaption to unseen subtasks difficult, hinder the knowledge sharing between different subtasks, and are contrary to the trend of devising general-purpose models. In this work, we propose UniLayout, which handles different subtasks for graphic layout generation in a unified manner. First, we uniformly represent diverse inputs and outputs of subtasks as the sequences of tokens. Then, based on the unified sequence format, we naturally leverage an identical encoder-decoder architecture with Transformers for different subtasks. Moreover, based on the above two kinds of unification, we further develop a single model that supports all subtasks concurrently. Experiments on two public datasets demonstrate that while simple, UniLayout significantly outperforms the previous task-specific methods.