人間は、液体の落下などの物理的プロセスを、そのようなシーンの写真をちらりと見るだけで、強い直感的な理解を持っています。この作業は、グラウンド トゥルースの流体力学を監視することなく、注釈のないビデオから学習したこのような写真から流体力学への再構成機能を実現します。簡単に言うと、ConvNet ベースの圧力投影ソルバーでモデル化された微分可能なオイラー シミュレーターは、ボリューム レンダラーと統合され、エンドツーエンド/コヒーレントな微分可能な動的シミュレーションとレンダリングをサポートします。サンプリングされた各ポイントに流体ボリューム値を付与することにより、流体データ専用の NeRF のような微分可能なレンダラーを導き出します。そして、このボリューム拡張表現のおかげで、流体力学は、レンダリングされた結果とグラウンド トゥルース ビデオ フレームの間のエラー信号から逆に推測できます (つまり、逆レンダリング)。生成された Fluid Fall データセットと DPI Dam Break データセットの実験は、この方法の有効性と一般化能力の両方を実証するために実施されます。
Humans have a strong intuitive understanding of physical processes such as fluid falling by just a glimpse of such a scene picture, i.e., quickly derived from our immersive visual experiences in memory. This work achieves such a photo-to-fluid-dynamics reconstruction functionality learned from unannotated videos, without any supervision of ground-truth fluid dynamics. In a nutshell, a differentiable Euler simulator modeled with a ConvNet-based pressure projection solver, is integrated with a volumetric renderer, supporting end-to-end/coherent differentiable dynamic simulation and rendering. By endowing each sampled point with a fluid volume value, we derive a NeRF-like differentiable renderer dedicated from fluid data; and thanks to this volume-augmented representation, fluid dynamics could be inversely inferred from the error signal between the rendered result and ground-truth video frame (i.e., inverse rendering). Experiments on our generated Fluid Fall datasets and DPI Dam Break dataset are conducted to demonstrate both effectiveness and generalization ability of our method.