ビデオフレームから新しい屋内シーンをセグメント化することを学習するためのシンプルで効果的な方法を提案します:1つのデータセットでトレーニングされた最先端の方法は、SUNRGB-Dデータセットと同じ大きさでも、画像に適用するとパフォーマンスが低下しますデータセットバイアス、コンピュータービジョンの一般的な現象のため、データセットの一部ではありません。実際にセマンティックセグメンテーションをより便利にするために、幾何学的制約を活用できます。私たちの主な貢献は、これらの制約が半監視語として便利にキャストできることを示すことです。これにより、異なる画像の同じ3D位置の投影に対して同じクラスを予測する必要があります。これは、制約を効率的に組み込むために半教師あり学習用に開発された一般的な既存の手法を活用できるため、興味深いものです。このアプローチは、SUNRGB-Dからの注釈、およびターゲットシーケンスのビデオフレーム間の幾何学的関係のみを使用して、ScanNetのターゲットシーケンスと独自のターゲットシーケンスを効率的かつ正確に学習できることを示します。
We propose a simple yet effective method to learn to segment new indoor scenes from video frames: State-of-the-art methods trained on one dataset, even as large as the SUNRGB-D dataset, can perform poorly when applied to images that are not part of the dataset, because of the dataset bias, a common phenomenon in computer vision. To make semantic segmentation more useful in practice, one can exploit geometric constraints. Our main contribution is to show that these constraints can be cast conveniently as semi-supervised terms, which enforce the fact that the same class should be predicted for the projections of the same 3D location in different images. This is interesting as we can exploit general existing techniques developed for semi-supervised learning to efficiently incorporate the constraints. We show that this approach can efficiently and accurately learn to segment target sequences of ScanNet and our own target sequences using only annotations from SUNRGB-D, and geometric relations between the video frames of target sequences.