arXiv reaDer
タスク固有のカメラ パラメーターをエンドツーエンドで学習するための微分可能なセンサー レイアウト
Differentiable Sensor Layouts for End-to-End Learning of Task-Specific Camera Parameters
ディープ ラーニングの成功は、ネットワークのすべてのパラメーターを特定のアプリケーションでエンド ツー エンドの方法でトレーニングできることとしてよく説明されます。それでも、センサーのピクセル レイアウトを含む、カメラ レベルでのいくつかの設計上の選択肢は、事前に定義され、固定されていると見なされます。高解像度の通常のピクセル レイアウトは、コンピューター ビジョンとグラフィックスにおいて最も一般的なものであると見なされます。画像の領域も同様に重要です。いくつかの研究では、ハードウェアおよび画像処理における六角形または中心窩などの不均一なピクセル レイアウトが考慮されていますが、レイアウトはこれまでエンド ツー エンドの学習パラダイムに統合されていません。この作業では、特定のタスクで特定のニューラル ネットワークのパラメーターと連携して、イメージング センサー上のピクセルのサイズと分布を最適化する、真にエンド ツー エンドのトレーニング済みイメージング パイプラインを初めて紹介します。タスク固有の局所的なさまざまなピクセル解像度を可能にするセンサーレイアウトのパラメーター化のための分析的で微分可能なアプローチを導き出します。 2 つのピクセル レイアウト パラメータ化関数を提示します。通常のトポロジを保持する長方形と曲線のグリッド形状です。既存の高解像度画像を考慮してセンサー シミュレーションを近似するドロップイン モジュールを提供し、既存の深層学習モデルと直接接続します。ネットワーク予測は、分類とセマンティック セグメンテーションという 2 つの異なるダウンストリーム タスクの学習可能なピクセル レイアウトの恩恵を受けることを示します。
The success of deep learning is frequently described as the ability to train all parameters of a network on a specific application in an end-to-end fashion. Yet, several design choices on the camera level, including the pixel layout of the sensor, are considered as pre-defined and fixed, and high resolution, regular pixel layouts are considered to be the most generic ones in computer vision and graphics, treating all regions of an image as equally important. While several works have considered non-uniform, e.g. , hexagonal or foveated, pixel layouts in hardware and image processing, the layout has not been integrated into the end-to-end learning paradigm so far. In this work, we present the first truly end-to-end trained imaging pipeline that optimizes the size and distribution of pixels on the imaging sensor jointly with the parameters of a given neural network on a specific task. We derive an analytic, differentiable approach for the sensor layout parameterization that allows for task-specific, local varying pixel resolutions. We present two pixel layout parameterization functions: rectangular and curvilinear grid shapes that retain a regular topology. We provide a drop-in module that approximates sensor simulation given existing high-resolution images to directly connect our method with existing deep learning models. We show that network predictions benefit from learnable pixel layouts for two different downstream tasks, classification and semantic segmentation.
updated: Fri Apr 28 2023 10:28:09 GMT+0000 (UTC)
published: Fri Apr 28 2023 10:28:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト