YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs
物体検出モデルのパフォーマンスは、モデルの精度と効率という2つの主要な面で急速に成長しています。ただし、ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマッピングするには、通常、そのようなモデルを大幅に圧縮する必要があるため、モデルの精度が低下します。この論文では、既存の最先端の方法でさまざまな機能スケール間の欠落している組み合わせ接続を活用することにより、マルチスケール機能の相互作用のための新しいエッジGPUフレンドリーモジュールを提案します。さらに、さまざまなタスクにわたる翻訳情報フローの変化に触発された新しい転送学習バックボーンの採用を提案します。これは、機能インタラクションモジュールを補完し、市場で入手可能なさまざまなエッジGPUデバイスの精度と実行速度の両方を向上させるように設計されています。たとえば、MobileNetV2x0.75バックボーンを備えたYOLO-ReTは、Jetson Nanoでリアルタイムに実行され、PascalVOCで68.75mAP、COCOで34.91 mAPを達成し、3.05FPSで高速に実行しながらピアをそれぞれ3.05mAPと0.91mAP上回っています。さらに、YOLOv4-tinyとYOLOv4-tiny(3l)にマルチスケール機能インタラクションモジュールを導入すると、COCOでのパフォーマンスがそれぞれ41.5と48.1 mAPに向上し、元のバージョンを1.3と0.9mAP上回ります。
Performance of object detection models has been growing rapidly on two major fronts, model accuracy and efficiency. However, in order to map deep neural network (DNN) based object detection models to edge devices, one typically needs to compress such models significantly, thus compromising the model accuracy. In this paper, we propose a novel edge GPU friendly module for multi-scale feature interaction by exploiting missing combinatorial connections between various feature scales in existing state-of-the-art methods. Additionally, we propose a novel transfer learning backbone adoption inspired by the changing translational information flow across various tasks, designed to complement our feature interaction module and together improve both accuracy as well as execution speed on various edge GPU devices available in the market. For instance, YOLO-ReT with MobileNetV2x0.75 backbone runs real-time on Jetson Nano, and achieves 68.75 mAP on Pascal VOC and 34.91 mAP on COCO, beating its peers by 3.05 mAP and 0.91 mAP respectively, while executing faster by 3.05 FPS. Furthermore, introducing our multi-scale feature interaction module in YOLOv4-tiny and YOLOv4-tiny (3l) improves their performance to 41.5 and 48.1 mAP respectively on COCO, outperforming the original versions by 1.3 and 0.9 mAP.
