実際のアプリケーションで深層学習モデルが広く深く採用されるにつれて、ニューラル ネットワーク自体の表現をモデル化して学習する必要性が高まっています。これらのモデルを使用して、実際のトレーニングや推論タスクを実行することなく、精度やレイテンシなどのさまざまなニューラル ネットワーク アーキテクチャの属性を推定できます。この論文では、これらの属性を全体的に推定するために使用できるニューラル アーキテクチャ表現モデルを提案します。具体的には、ニューラルネットワークの操作とトポロジー情報の両方を単一のシーケンスにエンコードするためのシンプルで効果的なトークナイザーを最初に提案します。次に、多段融合変換器を設計して、変換されたシーケンスからコンパクトなベクトル表現を構築します。効率的なモデル トレーニングのために、情報フローの一貫性の増強をさらに提案し、それに応じてアーキテクチャの一貫性の喪失を設計します。 NAS-Bench-101、NAS-Bench-201、DARTS 検索空間、および NNLQP に関する実験結果は、提案されたフレームワークを使用して、セル アーキテクチャとディープ ニューラル ネットワーク全体の前述のレイテンシと精度の属性を予測し、有望なパフォーマンスを達成できることを示しています。 .コードは https://github.com/yuny220/NAR-Former で入手できます。
With the wide and deep adoption of deep learning models in real applications, there is an increasing need to model and learn the representations of the neural networks themselves. These models can be used to estimate attributes of different neural network architectures such as the accuracy and latency, without running the actual training or inference tasks. In this paper, we propose a neural architecture representation model that can be used to estimate these attributes holistically. Specifically, we first propose a simple and effective tokenizer to encode both the operation and topology information of a neural network into a single sequence. Then, we design a multi-stage fusion transformer to build a compact vector representation from the converted sequence. For efficient model training, we further propose an information flow consistency augmentation and correspondingly design an architecture consistency loss, which brings more benefits with less augmentation samples compared with previous random augmentation strategies. Experiment results on NAS-Bench-101, NAS-Bench-201, DARTS search space and NNLQP show that our proposed framework can be used to predict the aforementioned latency and accuracy attributes of both cell architectures and whole deep neural networks, and achieves promising performance. Code is available at https://github.com/yuny220/NAR-Former.