arXiv reaDer
潜在相関ベースのマルチビュー学習と自己監視の理解:識別可能性の観点
Understanding Latent Correlation-Based Multiview Learning and Self-Supervision: An Identifiability Perspective
自然に取得されたデータ(画像や音声など)と人工的に生成されたデータ(データサンプルに異なるノイズを追加するなど)の両方のデータの複数のビューは、表現学習の強化に役立つことが証明されています。自然なビューは、(深い)正準相関分析[(D)CCA]などのマルチビュー分析ツールによって処理されることが多く、人工的なビューは、BYOLやBarlow Twinsなどの自己監視学習(SSL)パラダイムで頻繁に使用されます。どちらのタイプのアプローチも、データの埋め込みが高いクロスビュー相関を示すように、神経特徴抽出器を学習することを伴うことがよくあります。直感的ではありますが、相関ベースのニューラル埋め込みの有効性は、ほとんどの場合、経験的に検証されています。この作品は、潜在的なコンポーネントの識別の観点から潜在的な相関最大化ベースの深いマルチビュー学習を理解することを目的としています。マルチビューデータの直感的な生成モデルが採用されており、ビューは共有コンポーネントとプライベートコンポーネントの異なる非線形混合です。共有コンポーネントはビュー/歪みに不変であるため、そのようなコンポーネントを使用してデータを表現すると、サンプルのアイデンティティが効果的かつ堅牢に明らかになると考えられます。このモデルでは、潜在相関の最大化が、ビュー全体での共有コンポーネントの抽出を保証するために示されています(特定のあいまいさまで)。さらに、各ビューの個人情報は、適切な正則化設計を使用して、共有から確実に解きほぐすことができることがさらに示されています。非線形混合物の識別可能性の研究ではまれであった有限サンプル分析も提示されます。理論的な結果と新しく設計された正則化は、一連のタスクでテストされます。
Multiple views of data, both naturally acquired (e.g., image and audio) and artificially produced (e.g., via adding different noise to data samples), have proven useful in enhancing representation learning. Natural views are often handled by multiview analysis tools, e.g., (deep) canonical correlation analysis [(D)CCA], while the artificial ones are frequently used in self-supervised learning (SSL) paradigms, e.g., BYOL and Barlow Twins. Both types of approaches often involve learning neural feature extractors such that the embeddings of data exhibit high cross-view correlations. Although intuitive, the effectiveness of correlation-based neural embedding is mostly empirically validated. This work aims to understand latent correlation maximization-based deep multiview learning from a latent component identification viewpoint. An intuitive generative model of multiview data is adopted, where the views are different nonlinear mixtures of shared and private components. Since the shared components are view/distortion-invariant, representing the data using such components is believed to reveal the identity of the samples effectively and robustly. Under this model, latent correlation maximization is shown to guarantee the extraction of the shared components across views (up to certain ambiguities). In addition, it is further shown that the private information in each view can be provably disentangled from the shared using proper regularization design. A finite sample analysis, which has been rare in nonlinear mixture identifiability study, is also presented. The theoretical results and newly designed regularization are tested on a series of tasks.
updated: Fri Apr 08 2022 19:37:10 GMT+0000 (UTC)
published: Mon Jun 14 2021 00:12:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト