微分可能なレンダリングにより、合成による分析を介して、視覚タスク、たとえばオブジェクトのポーズや形状のフィッティングにコンピュータグラフィックスを適用できます。この場合、レンダリングプロセスを反転するときに、遮蔽された領域の勾配が重要になります。これらの勾配を取得するために、最先端の(SoTA)微分可能レンダラーは、ラスタライズを使用して各ピクセルに最も近いコンポーネントのセットを収集し、表示距離に基づいてそれらを集約します。この論文では、レイトレーシングを使用して、ガウス楕円体に基づく体積密度の積分を介して、光線上の体積密度分布を持つ最も近いコンポーネントをキャプチャし、より効率的で安定した勾配をもたらすVoGEを提案します。 VoGEを介して効率的にレンダリングするために、ボリューム密度の集約と粗いレンダリング戦略から細かいレンダリング戦略のための近似的な閉形式のソリューションを提案します。最後に、VoGEのCUDA実装を提供します。これにより、PyTorch3Dと比較して競争力のあるレンダリング速度が得られます。定量的および定性的な実験結果は、VoGEが、オブジェクトポーズ推定、形状/テクスチャフィッティング、オクルージョン推論などのさまざまなビジョンタスクに適用された場合にSoTAの対応物よりも優れていることを示しています。 VoGEライブラリとデモは、https://github.com/Angtian/VoGEで入手できます。
Differentiable rendering allows the application of computer graphics on vision tasks, e.g. object pose and shape fitting, via analysis-by-synthesis, where gradients at occluded regions are important when inverting the rendering process. To obtain those gradients, state-of-the-art (SoTA) differentiable renderers use rasterization to collect a set of nearest components for each pixel and aggregate them based on the viewing distance. In this paper, we propose VoGE, which uses ray tracing to capture nearest components with their volume density distributions on the rays and aggregates via integral of the volume densities based on Gaussian ellipsoids, which brings more efficient and stable gradients. To efficiently render via VoGE, we propose an approximate close-form solution for the volume density aggregation and a coarse-to-fine rendering strategy. Finally, we provide a CUDA implementation of VoGE, which gives a competitive rendering speed in comparison to PyTorch3D. Quantitative and qualitative experiment results show VoGE outperforms SoTA counterparts when applied to various vision tasks,e.g., object pose estimation, shape/texture fitting, and occlusion reasoning. The VoGE library and demos are available at https://github.com/Angtian/VoGE.