予測コーディング理論は、さまざまな抽象化レベルでの観測を予測することで脳が学習することを示唆しています。最も基本的な予測タスクの1つはビュー予測です。特定のシーンは、別の視点からどのように見えるでしょうか?人間はこのタスクに優れています。欠落している情報を想像して入力する能力は、知覚と密接に結びついています。世界を3次元で見ているように感じますが、実際には、世界の前面だけからの情報が網膜に当たります。このホワイトペーパーでは、3D視覚認識の開発におけるビュー予測の役割について説明します。動きのあるカメラでキャプチャされた2.5D(色と深さ)のビデオストリームを入力として受け取り、シーンの内容をカメラの動きから解きほぐして、シーンの安定した3D特徴マップに持ち上げるニューラル3Dマッピングネットワークを提案します。また、モデルは3Dフィーチャマップを新しい視点に投影して、ターゲットビューを予測および照合します。対照的な予測損失を提案して標準の色回帰損失を置き換え、これが複雑なフォトリアリスティックデータのパフォーマンス向上につながることを示します。提案モデルは、動的シーンのビデオ内の推定3D特徴マップの動きを推定することにより、(1)3Dオブジェクト検出器の半教師あり学習、および(2)3D移動オブジェクト検出器の教師なし学習に役立つ視覚表現を学習することを示します。私たちの知る限り、これは3Dオブジェクト検出に有益なスケーラブルな自己監視タスクであるビュー予測を経験的に示した最初の作品です。
Predictive coding theories suggest that the brain learns by predicting observations at various levels of abstraction. One of the most basic prediction tasks is view prediction: how would a given scene look from an alternative viewpoint? Humans excel at this task. Our ability to imagine and fill in missing information is tightly coupled with perception: we feel as if we see the world in 3 dimensions, while in fact, information from only the front surface of the world hits our retinas. This paper explores the role of view prediction in the development of 3D visual recognition. We propose neural 3D mapping networks, which take as input 2.5D (color and depth) video streams captured by a moving camera, and lift them to stable 3D feature maps of the scene, by disentangling the scene content from the motion of the camera. The model also projects its 3D feature maps to novel viewpoints, to predict and match against target views. We propose contrastive prediction losses to replace the standard color regression loss, and show that this leads to better performance on complex photorealistic data. We show that the proposed model learns visual representations useful for (1) semi-supervised learning of 3D object detectors, and (2) unsupervised learning of 3D moving object detectors, by estimating the motion of the inferred 3D feature maps in videos of dynamic scenes. To the best of our knowledge, this is the first work that empirically shows view prediction to be a scalable self-supervised task beneficial to 3D object detection.