arXiv reaDer
CoCoNets:連続的な対照的な3Dシーン表現
CoCoNets: Continuous Contrastive 3D Scene Representations
このペーパーでは、オブジェクトとシーンのセマンティックコンテンツにとらわれない、RGBおよびRGB-Dでポーズをとった画像とビデオからのアモーダル3D特徴表現の自己教師あり学習について説明し、視覚的対応、オブジェクトトラッキング、およびオブジェクトのダウンストリームタスクで結果のシーン表現を評価します検出。モデルは、シーンの潜在的な3D表現を3D特徴点の形式で推測します。ここで、各連続世界の3D点は、対応する特徴ベクトルにマッピングされます。モデルは、クエリされた視点で3Dフィーチャクラウドをレンダリングし、クエリビューから予測された3Dフィーチャポイントクラウドと照合することにより、対照的なビュー予測用にトレーニングされます。特に、表現は、入力ビューから見えなくても、任意の3D位置についてクエリできます。私たちのモデルは、最近のエキサイティングな研究作業の3つの強力なアイデアをまとめています。ビュー予測のニューラルボトルネックとしての3D特徴グリッド、3Dグリッドの解像度制限を処理するための陰関数、および特徴表現の教師なしトレーニングのための対照学習です。結果として得られる3D視覚的特徴表現は、オブジェクトやシーン全体で効果的にスケーリングされ、入力の視点から遮られたり欠落したりする情報を想像し、時間の経過とともにオブジェクトを追跡し、意味的に関連するオブジェクトを3Dで整列させ、3Dオブジェクトの検出を改善します。 3Dグリッドの空間解像度によって制限される、アモーダル3D表現を構築しようとしない、またはそれらがないために組み合わせシーンの変動を処理しない、3D特徴学習およびビュー予測のための多くの既存の最先端の方法よりも優れています。 -畳み込みのボトルネック。
This paper explores self-supervised learning of amodal 3D feature representations from RGB and RGB-D posed images and videos, agnostic to object and scene semantic content, and evaluates the resulting scene representations in the downstream tasks of visual correspondence, object tracking, and object detection. The model infers a latent3D representation of the scene in the form of 3D feature points, where each continuous world 3D point is mapped to its corresponding feature vector. The model is trained for contrastive view prediction by rendering 3D feature clouds in queried viewpoints and matching against the 3D feature point cloud predicted from the query view. Notably, the representation can be queried for any 3D location, even if it is not visible from the input view. Our model brings together three powerful ideas of recent exciting research work: 3D feature grids as a neural bottleneck for view prediction, implicit functions for handling resolution limitations of 3D grids, and contrastive learning for unsupervised training of feature representations. We show the resulting 3D visual feature representations effectively scale across objects and scenes, imagine information occluded or missing from the input viewpoints, track objects over time, align semantically related objects in 3D, and improve 3D object detection. We outperform many existing state-of-the-art methods for 3D feature learning and view prediction, which are either limited by 3D grid spatial resolution, do not attempt to build amodal 3D representations, or do not handle combinatorial scene variability due to their non-convolutional bottlenecks.
updated: Thu Apr 08 2021 15:50:47 GMT+0000 (UTC)
published: Thu Apr 08 2021 15:50:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト