arXiv reaDer
半径が制限された無料の双曲線ニューラルネットワーク
Free Hyperbolic Neural Networks with Limited Radii
一定の負の曲率を持つ非ユークリッド幾何学、つまり双曲空間は、機械学習のコミュニティで持続的な注目を集めています。双曲空間は、階層構造を低歪みで連続的に埋め込むことができるため、木のような構造のデータを学習するために適用されています。双曲空間で直接動作する双曲ニューラルネットワーク(HNN)も、双曲表現の可能性をさらに活用するために最近提案されています。 HNNは、暗黙的な階層構造を持つデータセットでユークリッドニューラルネットワーク(ENN)よりも優れたパフォーマンスを実現しましたが、CIFARやImageNetなどの標準的な分類ベンチマークではパフォーマンスが低下します。伝統的な知恵は、HNNを適用するときにデータが双曲幾何学を尊重することが重要であるというものです。この論文では、最初に、標準的な認識データセットでのHNNのパフォーマンスの低下が、悪名高い勾配消失問題に起因する可能性があることを示す実証的研究を実施します。さらに、この問題はHNNのハイブリッドアーキテクチャに起因することを発見しました。私たちの分析は、機能クリッピングと呼ばれるシンプルで効果的なソリューションにつながります。これは、ノルムが特定のしきい値を超えるたびに双曲埋め込みを正規化します。私たちの徹底的な実験は、提案された方法が、バックプロパゲーションを使用してHNNをトレーニングするときに、勾配消失問題をうまく回避できることを示しています。改善されたHNNは、MNIST、CIFAR10、CIFAR100、ImageNetなどの標準的な画像認識データセットでENNと同等のパフォーマンスを実現すると同時に、より敵対的な堅牢性とより強力な分布外検出機能を示します。
Non-Euclidean geometry with constant negative curvature, i.e., hyperbolic space, has attracted sustained attention in the community of machine learning. Hyperbolic space, owing to its ability to embed hierarchical structures continuously with low distortion, has been applied for learning data with tree-like structures. Hyperbolic Neural Networks (HNNs) that operate directly in hyperbolic space have also been proposed recently to further exploit the potential of hyperbolic representations. While HNNs have achieved better performance than Euclidean neural networks (ENNs) on datasets with implicit hierarchical structure, they still perform poorly on standard classification benchmarks such as CIFAR and ImageNet. The traditional wisdom is that it is critical for the data to respect the hyperbolic geometry when applying HNNs. In this paper, we first conduct an empirical study showing that the inferior performance of HNNs on standard recognition datasets can be attributed to the notorious vanishing gradient problem. We further discovered that this problem stems from the hybrid architecture of HNNs. Our analysis leads to a simple yet effective solution called Feature Clipping, which regularizes the hyperbolic embedding whenever its norm exceeding a given threshold. Our thorough experiments show that the proposed method can successfully avoid the vanishing gradient problem when training HNNs with backpropagation. The improved HNNs are able to achieve comparable performance with ENNs on standard image recognition datasets including MNIST, CIFAR10, CIFAR100 and ImageNet, while demonstrating more adversarial robustness and stronger out-of-distribution detection capability.
updated: Fri Jul 23 2021 22:10:16 GMT+0000 (UTC)
published: Fri Jul 23 2021 22:10:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト