創造的なアイデアは、多くの場合、さまざまなコンセプトを捉えた既存の視覚的な例からアイデアを変換、組み合わせ、修正することで生まれます。ただし、コンセプト全体を単純にコピーすることはできず、コンセプトの特定の側面を調べることでインスピレーションが得られます。したがって、多くの場合、新しい視点を提供するために、概念をさまざまな側面に分割することが必要になります。この論文では、一連の画像として表される視覚概念を、階層ツリー構造でエンコードされたさまざまな視覚的側面に分解する方法を提案します。私たちは、概念の分解と生成のために、大規模なビジョン言語モデルとその豊かな潜在空間を利用します。ツリー内の各ノードは、事前トレーニングされたテキストから画像へのモデルの潜在空間に注入された学習済みベクトル埋め込みを使用してサブコンセプトを表します。一連の正則化を使用して、ツリーの階層構造に従うようにノード内でエンコードされた埋め込みベクトルの最適化をガイドします。私たちの方法では、元の概念から派生した新しい概念を探索し、発見することができます。ツリーは各ノードでの無限の視覚的サンプリングの可能性を提供し、ユーザーが関心のあるオブジェクトの隠されたサブコンセプトを探索できるようにします。各ノードで学習した側面をツリー内およびツリー間で組み合わせて新しい視覚的なアイデアを作成したり、自然言語文で使用してそのような側面を新しいデザインに適用したりできます。
A creative idea is often born from transforming, combining, and modifying ideas from existing visual examples capturing various concepts. However, one cannot simply copy the concept as a whole, and inspiration is achieved by examining certain aspects of the concept. Hence, it is often necessary to separate a concept into different aspects to provide new perspectives. In this paper, we propose a method to decompose a visual concept, represented as a set of images, into different visual aspects encoded in a hierarchical tree structure. We utilize large vision-language models and their rich latent space for concept decomposition and generation. Each node in the tree represents a sub-concept using a learned vector embedding injected into the latent space of a pretrained text-to-image model. We use a set of regularizations to guide the optimization of the embedding vectors encoded in the nodes to follow the hierarchical structure of the tree. Our method allows to explore and discover new concepts derived from the original one. The tree provides the possibility of endless visual sampling at each node, allowing the user to explore the hidden sub-concepts of the object of interest. The learned aspects in each node can be combined within and across trees to create new visual ideas, and can be used in natural language sentences to apply such aspects to new designs.