arXiv reaDer
テキストから画像へのモデルを人間の好みに合わせて調整する
Better Aligning Text-to-Image Models with Human Preference
近年、深い生成モデルの急速な成長が見られ、テキストから画像へのモデルが一般から大きな注目を集めています。ただし、既存のモデルでは、手足と顔の表情のぎこちない組み合わせなど、人間の美的嗜好とうまく一致しない画像が生成されることがよくあります。この問題に対処するために、Stable Foundation Discord チャンネルから生成された画像に対する人間の選択のデータセットを収集します。私たちの実験は、生成モデルの現在の評価指標が人間の選択とうまく相関していないことを示しています。したがって、収集したデータセットを使用して人間の嗜好分類器をトレーニングし、分類器に基づいて人間の嗜好スコア (HPS) を導き出します。 HPS を使用して、Stable Diffusion を適応させて人間の美的嗜好に合わせるシンプルで効果的な方法を提案します。私たちの実験は、HPS が人間の選択を予測する上で CLIP よりも優れており、他のモデルから生成された画像に対して優れた一般化機能を備えていることを示しています。 HPS のガイダンスで Stable Diffusion を調整することにより、適応モデルは、人間のユーザーがより好む画像を生成できます。
Recent years have witnessed a rapid growth of deep generative models, with text-to-image models gaining significant attention from the public. However, existing models often generate images that do not align well with human aesthetic preferences, such as awkward combinations of limbs and facial expressions. To address this issue, we collect a dataset of human choices on generated images from the Stable Foundation Discord channel. Our experiments demonstrate that current evaluation metrics for generative models do not correlate well with human choices. Thus, we train a human preference classifier with the collected dataset and derive a Human Preference Score (HPS) based on the classifier. Using the HPS, we propose a simple yet effective method to adapt Stable Diffusion to better align with human aesthetic preferences. Our experiments show that the HPS outperforms CLIP in predicting human choices and has good generalization capability towards images generated from other models. By tuning Stable Diffusion with the guidance of the HPS, the adapted model is able to generate images that are more preferred by human users.
updated: Sat Mar 25 2023 10:09:03 GMT+0000 (UTC)
published: Sat Mar 25 2023 10:09:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト