arXiv reaDer
QS-Attn:I2I翻訳における対照学習のためのクエリ選択された注意
QS-Attn: Query-Selected Attention for Contrastive Learning in I2I Translation
対になっていない画像から画像(I2I)への変換では、多くの場合、ソースと異なるドメイン間で変換された画像間の相互情報量を最大化する必要があります。これは、ジェネレータがソースコンテンツを保持し、不要な変更を防ぐために重要です。自己監視型対照学習は、すでにI2Iにうまく適用されています。同じ場所の機能を別の場所の機能よりも近くに制限することで、ソースからコンテンツを取得する結果を暗黙的に保証します。ただし、以前の作業では、ランダムな場所の機能を使用して制約を課しています。これは、場所によってはソースドメインの情報が少ないため、適切でない場合があります。さらに、機能自体は他の機能との関係を反映していません。この論文では、対照学習のための重要なアンカーポイントを意図的に選択することにより、これらの問題に対処します。クエリ選択アテンション(QS-Attn)モジュールを設計します。このモジュールは、ソースドメインの特徴距離を比較し、各行の確率分布を持つアテンションマトリックスを提供します。次に、分布から計算された重要度の測定値に従ってクエリを選択します。選択されたものは、対照的な損失のアンカーと見なされます。同時に、注意の低減されたマトリックスを使用して、両方のドメインのフィーチャをルーティングし、ソースの関係が合成で維持されるようにします。 3つの異なるI2Iデータセットで提案された方法を検証し、学習可能なパラメーターを追加せずに画質を向上させることを示します。
Unpaired image-to-image (I2I) translation often requires to maximize the mutual information between the source and the translated images across different domains, which is critical for the generator to keep the source content and prevent it from unnecessary modifications. The self-supervised contrastive learning has already been successfully applied in the I2I. By constraining features from the same location to be closer than those from different ones, it implicitly ensures the result to take content from the source. However, previous work uses the features from random locations to impose the constraint, which may not be appropriate since some locations contain less information of source domain. Moreover, the feature itself does not reflect the relation with others. This paper deals with these problems by intentionally selecting significant anchor points for contrastive learning. We design a query-selected attention (QS-Attn) module, which compares feature distances in the source domain, giving an attention matrix with a probability distribution in each row. Then we select queries according to their measurement of significance, computed from the distribution. The selected ones are regarded as anchors for contrastive loss. At the same time, the reduced attention matrix is employed to route features in both domains, so that source relations maintain in the synthesis. We validate our proposed method in three different I2I datasets, showing that it increases the image quality without adding learnable parameters.
updated: Wed Mar 16 2022 09:19:25 GMT+0000 (UTC)
published: Wed Mar 16 2022 09:19:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト