IoTおよびモバイルデバイスにディープニューラルネットワーク(DNN)を展開することは、計算リソースが限られているため、困難な作業です。したがって、要求の厳しいタスクは、推論を加速できるエッジサーバーに完全にオフロードされることがよくありますが、通信コストが発生し、プライバシーの問題が発生します。さらに、このアプローチでは、エンドデバイスの計算能力が未使用のままになります。スプリットコンピューティングは、DNNが2つのセクションに分割されるパラダイムです。最初のセクションはエンドデバイスで実行され、出力はエッジサーバーに送信され、そこで最後のセクションが実行されます。ここでは、通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割コンピューティングを紹介します。最新のDNNアーキテクチャにすでに存在する自然なボトルネックを使用することにより、動的分割コンピューティングは再トレーニングとハイパーパラメータの最適化を回避し、DNNの最終的な精度に悪影響を与えません。広範な実験を通じて、動的分割コンピューティングが、データレートとサーバー負荷が時間とともに変化するエッジコンピューティング環境でより高速な推論を実現することを示します。
Deploying deep neural networks (DNNs) on IoT and mobile devices is a challenging task due to their limited computational resources. Thus, demanding tasks are often entirely offloaded to edge servers which can accelerate inference, however, it also causes communication cost and evokes privacy concerns. In addition, this approach leaves the computational capacity of end devices unused. Split computing is a paradigm where a DNN is split into two sections; the first section is executed on the end device, and the output is transmitted to the edge server where the final section is executed. Here, we introduce dynamic split computing, where the optimal split location is dynamically selected based on the state of the communication channel. By using natural bottlenecks that already exist in modern DNN architectures, dynamic split computing avoids retraining and hyperparameter optimization, and does not have any negative impact on the final accuracy of DNNs. Through extensive experiments, we show that dynamic split computing achieves faster inference in edge computing environments where the data rate and server load vary over time.