ジオメトリ対応モジュールは、シーンの表現とレンダリングのための最近の深層学習アーキテクチャに広く適用されています。ただし、これらのモジュールには、正確に取得されない可能性のある固有のカメラ情報が必要です。この論文では、幾何学的事前分布を適用せずに空間特性をモデル化するための空間変換ルーティング(STR)メカニズムを提案します。 STRメカニズムは、空間変換をメッセージパッシングプロセスとして扱い、ビューポーズとルーティングの重みの間の関係は、エンドツーエンドのトレーニング可能なニューラルネットワークによってモデル化されます。さらに、シーン融合プロセスの説明可能な理論的根拠を提供するために、占有概念マッピング(OCM)フレームワークが提案されています。いくつかのデータセットで実験を行い、提案されたSTRメカニズムがGenerative Query Network(GQN)のパフォーマンスを向上させることを示しました。視覚化の結果は、ルーティングプロセスが、あるビューの1つの場所から別のビューの関連する場所に観測された情報を渡すことができることを示しています。これは、空間認識の観点から提案されたモデルの利点を示しています。
Geometry-aware modules are widely applied in recent deep learning architectures for scene representation and rendering. However, these modules require intrinsic camera information that might not be obtained accurately. In this paper, we propose a Spatial Transformation Routing (STR) mechanism to model the spatial properties without applying any geometric prior. The STR mechanism treats the spatial transformation as the message passing process, and the relation between the view poses and the routing weights is modeled by an end-to-end trainable neural network. Besides, an Occupancy Concept Mapping (OCM) framework is proposed to provide explainable rationals for scene-fusion processes. We conducted experiments on several datasets and show that the proposed STR mechanism improves the performance of the Generative Query Network (GQN). The visualization results reveal that the routing process can pass the observed information from one location of some view to the associated location in the other view, which demonstrates the advantage of the proposed model in terms of spatial cognition.