arXiv reaDer
神経注意回路
Neural Attentive Circuits
最近の研究では、さまざまなデータ モダリティにわたってタスクを実行するようにトレーニングできる汎用ニューラル アーキテクチャの開発が見られました。汎用モデルは通常、基礎となるデータ構造についてほとんど仮定せず、大規模データ体制でうまく機能することが知られています。同時に、まばらに相互作用するモジュールを使用してデータを表すモジュラー ニューラル アーキテクチャへの関心が高まっています。これらのモデルは、分布外でより堅牢で、計算効率が高く、新しいデータへのサンプル効率の良い適応が可能です。ただし、データについてドメイン固有の仮定を行う傾向があり、モジュールの動作 (つまり、パラメーター化) と接続性 (つまり、それらのレイアウト) をどのように一緒に学習できるかという課題が生じます。この作業では、ドメイン知識を使用せずにニューラル モジュールのパラメーター化と疎な接続を共同で学習する、Neural Attentive Circuits (NAC) と呼ばれる、汎用でありながらモジュール化されたニューラル アーキテクチャを紹介します。 NAC は、エンドツーエンドで共同でトレーニングされる 2 つのシステムの組み合わせとして最もよく理解されています。1 つはモジュール構成を決定し、もう 1 つは入力でそれを実行します。 NACが追加の監督なしでNLVR2データセットで多様で意味のあるモジュール構成を学習することを定性的に示します。定量的には、このようにモジュール性を組み込むことにより、NAC は、CIFAR および CUB データセットでのローショット適応に関して強力な非モジュール式ベースラインを約 10% 改善し、Tiny ImageNet-R での OOD の堅牢性を約 2.5% 改善することを示しています。 .さらに、NAC は推論時に 8 倍のスピードアップを達成できる一方で、パフォーマンスの低下は 3% 未満であることがわかりました。最後に、ポイント クラウド分類、記号処理、および ASCII バイトからのテキスト分類にまたがる多様なデータ モダリティで競争力のある結果をもたらす NAC を見つけ、それによってその汎用性を確認します。
Recent work has seen the development of general purpose neural architectures that can be trained to perform tasks across diverse data modalities. General purpose models typically make few assumptions about the underlying data-structure and are known to perform well in the large-data regime. At the same time, there has been growing interest in modular neural architectures that represent the data using sparsely interacting modules. These models can be more robust out-of-distribution, computationally efficient, and capable of sample-efficient adaptation to new data. However, they tend to make domain-specific assumptions about the data, and present challenges in how module behavior (i.e., parameterization) and connectivity (i.e., their layout) can be jointly learned. In this work, we introduce a general purpose, yet modular neural architecture called Neural Attentive Circuits (NACs) that jointly learns the parameterization and a sparse connectivity of neural modules without using domain knowledge. NACs are best understood as the combination of two systems that are jointly trained end-to-end: one that determines the module configuration and the other that executes it on an input. We demonstrate qualitatively that NACs learn diverse and meaningful module configurations on the NLVR2 dataset without additional supervision. Quantitatively, we show that by incorporating modularity in this way, NACs improve upon a strong non-modular baseline in terms of low-shot adaptation on CIFAR and CUBs dataset by about 10%, and OOD robustness on Tiny ImageNet-R by about 2.5%. Further, we find that NACs can achieve an 8x speedup at inference time while losing less than 3% performance. Finally, we find NACs to yield competitive results on diverse data modalities spanning point-cloud classification, symbolic processing and text-classification from ASCII bytes, thereby confirming its general purpose nature.
updated: Wed Oct 19 2022 09:15:33 GMT+0000 (UTC)
published: Fri Oct 14 2022 18:00:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト