arXiv reaDer
HyT-NAS: ハイブリッド トランスフォーマー ニューラル アーキテクチャ エッジ デバイスの検索
HyT-NAS: Hybrid Transformers Neural Architecture Search for Edge Devices
ビジョン トランスフォーマーは、最近のアテンション ベースのディープ ラーニング (DL) アーキテクチャを有効にして、コンピューター ビジョン (CV) タスクで目覚ましい結果を達成しています。ただし、膨大な計算リソースが必要なため、これらのアーキテクチャがリソースに制約のあるプラットフォームに実装されることはめったにありません。現在の研究では、画像分類やオブジェクト検出などの CV タスクのために、手作りの畳み込みベースと注意ベースのハイブリッド モデルを調査しています。このホワイト ペーパーでは、HyT-NAS を提案します。HyT-NAS は、小型デバイスのビジョン タスクをターゲットとするハイブリッド アーキテクチャを含む、効率的なハードウェア認識ニューラル アーキテクチャ検索 (HW-NAS) です。 HyT-NAS は、検索スペースを充実させ、検索戦略とパフォーマンス予測因子を強化することで、最先端の HW-NAS を改善します。私たちの実験では、HyT-NAS が 5 倍未満のトレーニング評価で同様のハイパーボリュームを達成することが示されています。結果として得られたアーキテクチャは、Visual Wake Words のパラメーター数が 3.5 倍少なく、精度が 6.3% 向上し、MLPerf MobileNetV1 よりも優れています。
Vision Transformers have enabled recent attention-based Deep Learning (DL) architectures to achieve remarkable results in Computer Vision (CV) tasks. However, due to the extensive computational resources required, these architectures are rarely implemented on resource-constrained platforms. Current research investigates hybrid handcrafted convolution-based and attention-based models for CV tasks such as image classification and object detection. In this paper, we propose HyT-NAS, an efficient Hardware-aware Neural Architecture Search (HW-NAS) including hybrid architectures targeting vision tasks on tiny devices. HyT-NAS improves state-of-the-art HW-NAS by enriching the search space and enhancing the search strategy as well as the performance predictors. Our experiments show that HyT-NAS achieves a similar hypervolume with less than ~5x training evaluations. Our resulting architecture outperforms MLPerf MobileNetV1 by 6.3% accuracy improvement with 3.5x less number of parameters on Visual Wake Words.
updated: Wed Mar 08 2023 08:42:03 GMT+0000 (UTC)
published: Wed Mar 08 2023 08:42:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト