スプリットコンピューティングは、モバイルデバイスとより強力なエッジサーバーの間でニューラルネットワークの実行を(たとえば、分類タスクのために)分散します。ネットワークを分割する簡単な代替手段は、完全なデータを圧縮して送信しながら、純粋にエッジサーバーで監視対象タスクを実行することです。ほとんどのアプローチは、このベースラインをほとんど上回っていません。このホワイトペーパーでは、中間機能のアクティブ化を離散化してエントロピーコーディングし、モバイルデバイスからエッジサーバーに効率的に送信するための新しいアプローチを提案します。効率的な分割可能ネットワークアーキテクチャは、(a)モバイルデバイスでの計算を最小化すること、(b)送信するデータのサイズを最小化すること、および(c)モデルの予測パフォーマンスを最大化することの間の3つのトレードオフから生じることを示します。このトレードオフに基づくアーキテクチャを提案し、知識蒸留フレームワークで分割可能ネットワークとエントロピーモデルをトレーニングします。 3つのビジョンタスク、3つのデータセット、9つのベースライン、および180を超えるトレーニング済みモデルを含む広範な一連の実験で、私たちのアプローチが、かなり小さいエンコーダサイズを維持しながら、監視されたレート歪みのトレードオフを改善することを示します。また、インストール可能なPythonパッケージであるsc2benchをリリースして、分割コンピューティング(SC2)の教師あり圧縮に関する将来の研究を奨励および促進します。
Split computing distributes the execution of a neural network (e.g., for a classification task) between a mobile device and a more powerful edge server. A simple alternative to splitting the network is to carry out the supervised task purely on the edge server while compressing and transmitting the full data, and most approaches have barely outperformed this baseline. This paper proposes a new approach for discretizing and entropy-coding intermediate feature activations to efficiently transmit them from the mobile device to the edge server. We show that a efficient splittable network architecture results from a three-way tradeoff between (a) minimizing the computation on the mobile device, (b) minimizing the size of the data to be transmitted, and (c) maximizing the model's prediction performance. We propose an architecture based on this tradeoff and train the splittable network and entropy model in a knowledge distillation framework. In an extensive set of experiments involving three vision tasks, three datasets, nine baselines, and more than 180 trained models, we show that our approach improves supervised rate-distortion tradeoffs while maintaining a considerably smaller encoder size. We also release sc2bench, an installable Python package, to encourage and facilitate future studies on supervised compression for split computing (SC2).