近年、畳み込みニューラルネットワークは、特にコンピュータビジョン向けの多くのエンジニアリングアプリケーションで人気を博しています。より良いパフォーマンスを達成するために、多くの場合、より複雑な構造と高度な操作がニューラルネットワークに組み込まれ、推論時間が非常に長くなります。自動運転やバーチャルリアリティなどのタイムクリティカルなタスクでは、リアルタイム処理が基本です。リアルタイムのプロセス速度を達成するために、軽量、高スループットのCNNアーキテクチャ、つまりRoadNet-RTが、このホワイトペーパーの道路セグメンテーション用に提案されています。 KITTIロードセグメンテーションタスクのテストセットで90.33%のMaxFスコアを達成し、GTX 1080 GPUで実行した場合、フレームあたり8ミリ秒を達成します。最先端のネットワークと比較すると、RoadNet-RTは、6.2%の精度の損失を犠牲にして、推論時間を20倍高速化します。ハードウェア設計の最適化のために、深さ方向の分離可能なたたみ込みや不均一なカーネルサイズのたたみ込みなどのいくつかの手法は、処理時間をさらに短縮するためにカスタマイズされて設計されています。提案されたCNNアーキテクチャは、83.05 GOPSの計算機能を実現するFPGA ZCU102 MPSoCプラットフォームに正常に実装されました。システムのスループットは、画像サイズ1216x176で327.9フレーム/秒に達します。
In recent years, convolutional neural network has gained popularity in many engineering applications especially for computer vision. In order to achieve better performance, often more complex structures and advanced operations are incorporated into the neural networks, which results very long inference time. For time-critical tasks such as autonomous driving and virtual reality, real-time processing is fundamental. In order to reach real-time process speed, a light-weight, high-throughput CNN architecture namely RoadNet-RT is proposed for road segmentation in this paper. It achieves 90.33% MaxF score on test set of KITTI road segmentation task and 8 ms per frame when running on GTX 1080 GPU. Comparing to the state-of-the-art network, RoadNet-RT speeds up the inference time by a factor of 20 at the cost of only 6.2% accuracy loss. For hardware design optimization, several techniques such as depthwise separable convolution and non-uniformed kernel size convolution are customized designed to further reduce the processing time. The proposed CNN architecture has been successfully implemented on an FPGA ZCU102 MPSoC platform that achieves the computation capability of 83.05 GOPS. The system throughput reaches 327.9 frames per second with image size 1216x176.