arXiv reaDer
FishEye8K: 魚眼カメラの物体検出のためのベンチマークとデータセット
FishEye8K: A Benchmark and Dataset for Fisheye Camera Object Detection
AI の進歩に伴い、主にパースペクティブ カメラを使用した、コンピュータ ビジョンにおける道路物体検出が注目を集めています。魚眼レンズは、道路交差点の監視に使用するカメラの数を減らして全方向に広い範囲をカバーしますが、視界に歪みが生じます。私たちの知る限り、魚眼カメラでの交通監視用に用意されたオープン データセットは存在しません。このペーパーでは、道路物体検出タスク用のオープンな FishEye8K ベンチマーク データセットを紹介します。このデータセットは、5 つのクラス (歩行者、自転車、自動車、バス、トラック) にわたる 157K の境界ボックスで構成されています。さらに、YOLOv5、YOLOR、YOLO7、YOLOv8 のバリエーションを含む、State-of-The-Art (SoTA) モデルのベンチマーク結果も示します。このデータセットは、台湾の新竹市の交通監視用に 18 台の魚眼カメラを使用し、解像度 1080 × 1080 および 1280 × 1280 で 22 のビデオに記録された 8,000 枚の画像で構成されています。データの注釈と検証のプロセスは、歪みが大きい超広角パノラマおよび半球魚眼カメラ画像と、多数の道路参加者、特にスクーターに乗っている人々のため、困難で時間がかかりました。バイアスを避けるために、特定のカメラからのフレームがトレーニング セットまたはテスト セットのいずれかに割り当てられ、各クラスの画像数と境界ボックスの両方について約 70:30 の比率が維持されました。実験結果は、YOLOv8 と YOLOR がそれぞれ入力サイズ 640×640 と 1280×1280 で優れたパフォーマンスを発揮することを示しています。データセットは、PASCAL VOC、MS COCO、YOLO アノテーション形式で GitHub で入手できます。 FishEye8K ベンチマークは、魚眼ビデオ分析とスマート シティ アプリケーションに大きく貢献します。
With the advance of AI, road object detection has been a prominent topic in computer vision, mostly using perspective cameras. Fisheye lens provides omnidirectional wide coverage for using fewer cameras to monitor road intersections, however with view distortions. To our knowledge, there is no existing open dataset prepared for traffic surveillance on fisheye cameras. This paper introduces an open FishEye8K benchmark dataset for road object detection tasks, which comprises 157K bounding boxes across five classes (Pedestrian, Bike, Car, Bus, and Truck). In addition, we present benchmark results of State-of-The-Art (SoTA) models, including variations of YOLOv5, YOLOR, YOLO7, and YOLOv8. The dataset comprises 8,000 images recorded in 22 videos using 18 fisheye cameras for traffic monitoring in Hsinchu, Taiwan, at resolutions of 1080×1080 and 1280×1280. The data annotation and validation process were arduous and time-consuming, due to the ultra-wide panoramic and hemispherical fisheye camera images with large distortion and numerous road participants, particularly people riding scooters. To avoid bias, frames from a particular camera were assigned to either the training or test sets, maintaining a ratio of about 70:30 for both the number of images and bounding boxes in each class. Experimental results show that YOLOv8 and YOLOR outperform on input sizes 640×640 and 1280×1280, respectively. The dataset will be available on GitHub with PASCAL VOC, MS COCO, and YOLO annotation formats. The FishEye8K benchmark will provide significant contributions to the fisheye video analytics and smart city applications.
updated: Tue Jun 06 2023 07:02:32 GMT+0000 (UTC)
published: Sat May 27 2023 11:26:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト