arXiv reaDer
DarkVision: 低照度画像/ビデオ認識のベンチマーク
DarkVision: A Benchmark for Low-light Image/Video Perception
光子が制限されたシナリオでのイメージングと認識は、夜間の監視や写真撮影、高速写真撮影、自動運転など、さまざまなアプリケーションに必要です。このような場合、カメラの信号対雑音比が低くなり、画質が著しく低下し、物体の検出や認識などの下流の高レベルのビジョン タスクに課題が生じます。データ駆動型の方法は、画像の復元と高レベルのビジョン タスクの両方で大きな成功を収めています。ただし、フォトンが制限された画像/ビデオのタスク固有の正確な注釈を備えた高品質のベンチマーク データセットがないため、研究の進行が大幅に遅れています。この論文では、DarkVision という名前の最初のマルチ照度、マルチカメラ、および低照度データセットを提供し、画像強調とオブジェクト検出の両方に役立ちます。明るい部分と暗い部分のペアをピクセルごとに登録し、明るい部分が復元と注釈のための信頼できる参照を提供します。このデータセットは、15 カテゴリのオブジェクトを含む 900 の静的シーンと、4 カテゴリのオブジェクトを含む 32 の動的シーンの明暗ペアで構成されています。シーンごとに、グレードの異なる 3 台のカメラを使用して 5 つの照度レベルで画像/ビデオがキャプチャされ、平均光子を定量的研究用のキャリブレーション データから確実に推定できます。静的シーンの画像と動的ビデオには、合計でそれぞれ約 7,344 と 320,667 のインスタンスが含まれています。 DarkVision を使用して、代表的なアルゴリズムによる画像/ビデオの強化とオブジェクト検出のベースラインを確立しました。 DarkVision の例示的なアプリケーションを示すために、ビデオ強化とオブジェクト検出のパフォーマンスをそれぞれ改善するための 2 つのシンプルで効果的なアプローチを提案します。 DarkVision は、低照度環境でのイメージングと関連するコンピューター ビジョン タスクの両方で最先端技術を進歩させると信じています。
Imaging and perception in photon-limited scenarios is necessary for various applications, e.g., night surveillance or photography, high-speed photography, and autonomous driving. In these cases, cameras suffer from low signal-to-noise ratio, which degrades the image quality severely and poses challenges for downstream high-level vision tasks like object detection and recognition. Data-driven methods have achieved enormous success in both image restoration and high-level vision tasks. However, the lack of high-quality benchmark dataset with task-specific accurate annotations for photon-limited images/videos delays the research progress heavily. In this paper, we contribute the first multi-illuminance, multi-camera, and low-light dataset, named DarkVision, serving for both image enhancement and object detection. We provide bright and dark pairs with pixel-wise registration, in which the bright counterpart provides reliable reference for restoration and annotation. The dataset consists of bright-dark pairs of 900 static scenes with objects from 15 categories, and 32 dynamic scenes with 4-category objects. For each scene, images/videos were captured at 5 illuminance levels using three cameras of different grades, and average photons can be reliably estimated from the calibration data for quantitative studies. The static-scene images and dynamic videos respectively contain around 7,344 and 320,667 instances in total. With DarkVision, we established baselines for image/video enhancement and object detection by representative algorithms. To demonstrate an exemplary application of DarkVision, we propose two simple yet effective approaches for improving performance in video enhancement and object detection respectively. We believe DarkVision would advance the state-of-the-arts in both imaging and related computer vision tasks in low-light environment.
updated: Mon Jan 16 2023 05:55:59 GMT+0000 (UTC)
published: Mon Jan 16 2023 05:55:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト