この論文では、大きな画像データセットの変動の意味的要因を識別する問題に焦点を当てています。画像データ上で畳み込みオートエンコーダーをトレーニングすることにより、エンコードを作成します。エンコードは、ピクセル空間よりも高い抽象化レベルで各データポイントを記述します。次に、主成分分析をエンコーディングに適用して、データの変動要因を解きます。個々の主成分の値に従ってデータセットを並べ替えると、分布の上限と下限のサンプルが特定の意味特性を共有することが多いことがわかります。これらのサンプルグループをセマンティックグループと呼びます。この方法は、実世界のデータに適用すると、不要なエッジケースの発見に役立ちます。
In this paper, we focus on the problem of identifying semantic factors of variation in large image datasets. By training a convolutional Autoencoder on the image data, we create encodings, which describe each datapoint at a higher level of abstraction than pixel-space. We then apply Principal Component Analysis to the encodings to disentangle the factors of variation in the data. Sorting the dataset according to the values of individual principal components, we find that samples at the high and low ends of the distribution often share specific semantic characteristics. We refer to these groups of samples as semantic groups. When applied to real-world data, this method can help discover unwanted edge-cases.