arXiv reaDer
コンテンツスタイルの解きほぐしのバイアスを明らかにするためのメトリクス
Metrics for Exposing the Biases of Content-Style Disentanglement
挑戦的なコンピュータビジョンタスクのための最先端のセミおよび教師なしソリューションの最近の相次ぐは、画像の「コンテンツ」を空間テンソルにエンコードし、画像の外観または「スタイル」をベクトルにエンコードします。これらのソリューションのほとんどは、表現に解きほぐされた用語を使用し、モデル設計、学習目標、データなどのさまざまな「バイアス」を使用して、空間的に同変するタスク(画像から画像への変換など)で優れたパフォーマンスを実現します。ベクトル表現のもつれを解くためにかなりの努力が払われてきましたが、空間コンテンツとベクトルスタイル表現のメトリックが不足しています。この論文では、コンテンツとスタイルの表現がどの程度(非)相関していて有益であるかという観点から、解きほぐしの程度を特徴付けるそのようなメトリックを提案し、タスクのパフォーマンスとの関係をさらに調べます。特に、最初に、コンテンツスタイルの解きほぐしを採用し、アブレーションされたバージョンを導出する3つの一般的なモデルの主要な設計上の選択と学習の制約を特定します。次に、メトリックを使用して、各バイアスの役割を確認します。私たちの実験は、解きほぐし、タスクのパフォーマンス、潜在空間の解釈可能性の間の「スイートスポット」を明らかにしています。私たちの指標はタスクに依存しません。したがって、コンテンツスタイルの表現が役立つタスクでこの理想的な「スイートスポット」が達成されるように、新しい将来のモデルの設計または実行可能なモデルの選択をガイドするのに役立ちます。
A recent spate of state-of-the-art semi- and unsupervised solutions for challenging computer vision tasks encode image "content" into a spatial tensor and image appearance or "style" into a vector. Most of these solutions use the term disentangled for their representations and employ different "biases" such as model design, learning objectives, and data, to achieve good performance in spatially equivariant tasks (e.g. image-to-image translation). While considerable effort has been made to measure disentanglement in vector representations, we have lacked metrics for spatial content and vector style representations. In this paper, we propose such metrics to characterize the degree of disentanglement in terms of how (un)correlated and informative the content and style representations are, and we further examine its relation to task performance. In particular, we first identify key design choices and learning constraints on three popular models that employ content-style disentanglement and derive ablated versions. Secondly, we use our metrics to ascertain the role of each bias. Our experiments reveal a "sweet spot" between disentanglement, task performance and latent space interpretability. Our metrics are not task-dependent; thus, they can help guide either the design of new future models or the selection of viable models such that this ideal "sweet spot" is achieved in any task where content-style representations are useful.
updated: Thu Nov 05 2020 17:56:33 GMT+0000 (UTC)
published: Thu Aug 27 2020 21:41:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト