パーソナライズされたモバイル エージェントの認識システムには、3D ジオメトリの理解、客観性の把握、人間の行動の分析などを行うことができる屋内シーン理解モデルの開発が必要です。 (歩行者予測、車両検知、交通標識認識などを含む自動運転システム)。このホワイト ペーパーでは、最初に主要な課題について説明します。実際の屋内環境ではラベル付けされたデータが不十分、またはまったくないこと、および異種の情報源 (RGB 画像と Lidar 点群など) 間の融合、関係のモデリングなどのその他の課題について説明します。出力の多様なセット (例: 3D オブジェクトの位置、深度推定、および人間の姿勢) と計算効率の間。次に、上記の課題に取り組むための MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について説明します。 MMISM は、RGB 画像とまばらな Lidar ポイントを入力と見なし、3D オブジェクト検出、深度補完、人間の姿勢推定、セマンティック セグメンテーションを出力タスクと見なします。 MMISM が単一タスク モデルと同等またはそれ以上のパフォーマンスを発揮することを示します。たとえば、ベンチマークの ARKitScenes データセットでは、ベースラインの 3D オブジェクト検出結果が 11.7% 向上しています。
The perception system in personalized mobile agents requires developing indoor scene understanding models, which can understand 3D geometries, capture objectiveness, analyze human behaviors, etc. Nonetheless, this direction has not been well-explored in comparison with models for outdoor environments (e.g., the autonomous driving system that includes pedestrian prediction, car detection, traffic sign recognition, etc.). In this paper, we first discuss the main challenge: insufficient, or even no, labeled data for real-world indoor environments, and other challenges such as fusion between heterogeneous sources of information (e.g., RGB images and Lidar point clouds), modeling relationships between a diverse set of outputs (e.g., 3D object locations, depth estimation, and human poses), and computational efficiency. Then, we describe MMISM (Multi-modality input Multi-task output Indoor Scene understanding Model) to tackle the above challenges. MMISM considers RGB images as well as sparse Lidar points as inputs and 3D object detection, depth completion, human pose estimation, and semantic segmentation as output tasks. We show that MMISM performs on par or even better than single-task models; e.g., we improve the baseline 3D object detection results by 11.7% on the benchmark ARKitScenes dataset.