arXiv reaDer
ダーティピクセル:エンドツーエンドの画像処理と知覚に向けて
Dirty Pixels: Towards End-to-End Image Processing and Perception
実世界のイメージングシステムは、ノイズ、光学収差、およびその他の欠陥によって劣化する測定値を取得します。これらの欠陥により、人間の観察や高レベルの知覚タスクの画像処理が困難になります。従来のカメラは、高レベルのタスク処理からの画像を区分化することによってこの問題に対処します。そのため、従来のイメージングでは、RAWセンサーの測定値を、デモザイキング、ノイズ除去、ブレ除去、トーンマッピング、圧縮などの一連のステップパイプラインで処理する必要があります。このパイプラインは、視覚的に心地よい画像を取得するように最適化されています。一方、高レベルの処理には、特徴抽出、分類、追跡、融合などのステップが含まれます。このサイロ化された設計アプローチは効率的な開発を可能にしますが、カメラシステムのより高いレベルのタスクの知識がなくても、区分化されたパフォーマンスメトリックを指示します。たとえば、今日のデモザイキングおよびノイズ除去アルゴリズムは、知覚的な画質メトリックを使用して設計されていますが、オブジェクト検出などのドメイン固有のタスクを念頭に置いていません。デモザイキング、ノイズ除去、ブレ除去、トーンマッピング、および分類を共同で実行する、エンドツーエンドの微分可能なアーキテクチャを提案します。このアーキテクチャは、知覚品質が最適化された既存のISPの出力とは異なる出力の処理パイプラインを学習し、ノイズとアーティファクトの増加を犠牲にして細部を保持します。キャプチャおよびシミュレーションされたデータで、私たちのモデルが、実際のアプリケーションに不可欠な、暗い場所やその他の困難な状況での知覚を大幅に改善することを示します。最後に、提案されたモデルは、低照度条件での画像再構成用に最適化された場合にも最先端の精度を達成し、アーキテクチャ自体を、実証されたアプリケーションを超えた再構成および分析タスクのための潜在的に有用なドロップインネットワークとして検証することを発見しましたこの仕事で。
Real-world imaging systems acquire measurements that are degraded by noise, optical aberrations, and other imperfections that make image processing for human viewing and higher-level perception tasks challenging. Conventional cameras address this problem by compartmentalizing imaging from high-level task processing. As such, conventional imaging involves processing the RAW sensor measurements in a sequential pipeline of steps, such as demosaicking, denoising, deblurring, tone-mapping and compression. This pipeline is optimized to obtain a visually pleasing image. High-level processing, on the other hand, involves steps such as feature extraction, classification, tracking, and fusion. While this siloed design approach allows for efficient development, it also dictates compartmentalized performance metrics, without knowledge of the higher-level task of the camera system. For example, today's demosaicking and denoising algorithms are designed using perceptual image quality metrics but not with domain-specific tasks such as object detection in mind. We propose an end-to-end differentiable architecture that jointly performs demosaicking, denoising, deblurring, tone-mapping, and classification. The architecture learns processing pipelines whose outputs differ from those of existing ISPs optimized for perceptual quality, preserving fine detail at the cost of increased noise and artifacts. We demonstrate on captured and simulated data that our model substantially improves perception in low light and other challenging conditions, which is imperative for real-world applications. Finally, we found that the proposed model also achieves state-of-the-art accuracy when optimized for image reconstruction in low-light conditions, validating the architecture itself as a potentially useful drop-in network for reconstruction and analysis tasks beyond the applications demonstrated in this work.
updated: Sat May 08 2021 02:14:41 GMT+0000 (UTC)
published: Mon Jan 23 2017 16:46:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト