生成モデルの出力の特定の機能をユーザーフレンドリーな方法で分離および制御することは、困難で制限のない問題です。オラクルのユーザーが、「画像aと画像bのどちらが好きですか?」という形式の一連の相対的なクエリに答えることで、頭の中で想像している画像を生成できるようにする手法を開発しています。私たちのフレームワークは、収集された相対クエリを使用して潜在空間を優先度関連機能と非優先度関連機能に分割する条件付きVAEで構成されています。次に、相対クエリに対するユーザーの応答を使用して、想定される出力画像に対応する設定関連の機能を決定します。さらに、画像の予測される好みに関連する特徴の不確実性をモデル化するための手法を開発し、相対的なクエリトレーニングセットにノイズが含まれるシナリオにフレームワークを一般化できるようにします。
Isolating and controlling specific features in the outputs of generative models in a user-friendly way is a difficult and open-ended problem. We develop techniques that allow an oracle user to generate an image they are envisioning in their head by answering a sequence of relative queries of the form \textit"do you prefer image a or image b?" Our framework consists of a Conditional VAE that uses the collected relative queries to partition the latent space into preference-relevant features and non-preference-relevant features. We then use the user's responses to relative queries to determine the preference-relevant features that correspond to their envisioned output image. Additionally, we develop techniques for modeling the uncertainty in images' predicted preference-relevant features, allowing our framework to generalize to scenarios in which the relative query training set contains noise.