AETv2: AutoEncoding Transformations for Self-Supervised Representation Learning by Minimizing Geodesic Distances in Lie Groups
 変換を予測することによる自己教師付き学習は、教師なしタスクと(半)教師付きタスクの両方で卓越したパフォーマンスを実証しています。最先端の方法には、元の画像と変換された画像の学習された表現から変換をデコードするAutoEncoding Transformations(AET)があります。決定論的なAETと確率論的なAETはどちらも、ユークリッド距離に基づいて、推定された変換とグラウンドトゥルースの対応との偏差を測定します。ただし、変換のグループはしばしば平坦なユークリッド空間に留まるのではなく、曲がった多様体上にあるため、この仮定は疑問です。このため、測地線を使用して、画像が変換グループの多様体に沿って変換される方法を特徴付け、その長さを採用して変換間の偏差を測定する必要があります。特に、画像表現を学習するために、ホモグラフィ変換PG(2)のリーグループを自動エンコードすることを提示します。このために、測地線距離の閉形式表現を可能にする回転変換SO(3)のサブグループにPG(2)を射影することにより、扱いにくいリーマン対数の推定を行います。実験では、提案されたAETv2モデルが以前のバージョンや、複数のタスクにおける他の最先端の自己監視モデルよりも優れていることを示しています。
Self-supervised learning by predicting transformations has demonstrated outstanding performances in both unsupervised and (semi-)supervised tasks. Among the state-of-the-art methods is the AutoEncoding Transformations (AET) by decoding transformations from the learned representations of original and transformed images. Both deterministic and probabilistic AETs rely on the Euclidean distance to measure the deviation of estimated transformations from their groundtruth counterparts. However, this assumption is questionable as a group of transformations often reside on a curved manifold rather staying in a flat Euclidean space. For this reason, we should use the geodesic to characterize how an image transform along the manifold of a transformation group, and adopt its length to measure the deviation between transformations. Particularly, we present to autoencode a Lie group of homography transformations PG(2) to learn image representations. For this, we make an estimate of the intractable Riemannian logarithm by projecting PG(2) to a subgroup of rotation transformations SO(3) that allows the closed-form expression of geodesic distances. Experiments demonstrate the proposed AETv2 model outperforms the previous version as well as the other state-of-the-art self-supervised models in multiple tasks.
updated: Sat Nov 16 2019 09:58:58 GMT+0000 (UTC)
published: Sat Nov 16 2019 09:58:58 GMT+0000 (UTC)
