RGBビデオからのマルチオブジェクト3D再構成のためのトランスベースのニューラルネットワークアーキテクチャを提案します。知識を表現するための2つの代替方法に依存しています。機能のグローバル3Dグリッドとして、およびビュー固有の2Dグリッドの配列としてです。専用の双方向アテンションメカニズムを使用して、2つの間で情報を段階的に交換します。画像形成プロセスに関する知識を活用して、注意の重みマトリックスを大幅に簡素化し、メモリと計算の両方の観点から、現在のハードウェアでアーキテクチャを実現可能にします。シーン内のオブジェクトを検出し、それらの3Dポーズと3D形状を予測するために、3Dフィーチャグリッドの上にDETRスタイルのヘッドを取り付けます。以前の方法と比較して、私たちのアーキテクチャは単一ステージであり、エンドツーエンドでトレーニング可能であり、脆弱な追跡ステップを必要とせずに、複数のビデオフレームからのシーンについて全体的に推論できます。やりがいのあるScan2CADデータセットでこの方法を評価します。ここでは、(1)RGBビデオからの3Dオブジェクトポーズ推定のための最新の方法よりも優れています。 (2)マルチビューステレオとRGB-DCADアライメントを組み合わせた強力な代替方法。ソースコードを公開する予定です。
We propose a transformer-based neural network architecture for multi-object 3D reconstruction from RGB videos. It relies on two alternative ways to represent its knowledge: as a global 3D grid of features and an array of view-specific 2D grids. We progressively exchange information between the two with a dedicated bidirectional attention mechanism. We exploit knowledge about the image formation process to significantly sparsify the attention weight matrix, making our architecture feasible on current hardware, both in terms of memory and computation. We attach a DETR-style head on top of the 3D feature grid in order to detect the objects in the scene and to predict their 3D pose and 3D shape. Compared to previous methods, our architecture is single stage, end-to-end trainable, and it can reason holistically about a scene from multiple video frames without needing a brittle tracking step. We evaluate our method on the challenging Scan2CAD dataset, where we outperform (1) recent state-of-the-art methods for 3D object pose estimation from RGB videos; and (2) a strong alternative method combining Multi-view Stereo with RGB-D CAD alignment. We plan to release our source code.