自動ナンバープレート認識システムは、ビデオフレームに表示される車両からナンバープレート文字を検出、ローカライズ、および認識するためのエンドツーエンドのソリューションを提供することを目的としています。ただし、このようなシステムを実世界に展開するには、リソースの少ない環境でリアルタイムのパフォーマンスが必要です。私たちの論文では、一貫して正確な検出と認識のパフォーマンスとともにリアルタイムの推論速度を提供することを目的とした、VisionAPIと組み合わせた新しい2段階の検出パイプラインを提案します。バックボーンMobileNetSSDv2検出モデルの上に、フィルターとしてhaar-cascade分類器を使用しました。これは、信頼性の高い検出のみに焦点を当て、それらを認識に使用することにより、推論時間を短縮します。また、同じクリップ内の複数の車両ナンバープレートを識別するために、一時的なフレーム分離戦略を課します。さらに、公開されているバングラのナンバープレートデータセットはありません。このデータセット用に、実際のナンバープレートを含む画像データセットとビデオデータセットを作成しました。画像データセットでモデルをトレーニングし、86%のAP(0.5)スコアを達成し、ビデオデータセットでパイプラインをテストし、妥当な検出および認識パフォーマンス(82.7%の検出率と60.8%のOCR F1スコア)を実際に観察しました。時間処理速度(27.2フレーム/秒)。
Automatic License Plate Recognition systems aim to provide an end-to-end solution towards detecting, localizing, and recognizing license plate characters from vehicles appearing in video frames. However, deploying such systems in the real world requires real-time performance in low-resource environments. In our paper, we propose a novel two-stage detection pipeline paired with Vision API that aims to provide real-time inference speed along with consistently accurate detection and recognition performance. We used a haar-cascade classifier as a filter on top of our backbone MobileNet SSDv2 detection model. This reduces inference time by only focusing on high confidence detections and using them for recognition. We also impose a temporal frame separation strategy to identify multiple vehicle license plates in the same clip. Furthermore, there are no publicly available Bangla license plate datasets, for which we created an image dataset and a video dataset containing license plates in the wild. We trained our models on the image dataset and achieved an AP(0.5) score of 86% and tested our pipeline on the video dataset and observed reasonable detection and recognition performance (82.7% detection rate, and 60.8% OCR F1 score) with real-time processing speed (27.2 frames per second).