arXiv reaDer
3D機械学習を使用したデジタルツインの幾何学的変化の検出
Geometric Change Detection in Digital Twins using 3D Machine Learning
デジタルツインは、現実世界の物理システムと仮想表現の間のギャップを埋めることを目的としています。スタンドアロンと記述型の両方のデジタルツインには、デジタルレプリカ内のオブジェクトの物理的表現である3D幾何学的モデルが組み込まれています。デジタルツインアプリケーションは、物理的な対応物の進化に伴って内部パラメータを迅速に更新する必要があります。正確な物理的表現のために高品質の幾何学的モデルが不可欠であるため、3Dモデル情報を保存するためのストレージと帯域幅の要件は、利用可能なストレージと帯域幅の容量をすぐに超える可能性があります。この作業では、デジタルツインのコンテキストでの幾何学的変化検出への新しいアプローチを示します。この問題は、モーション検出用の動的モード分解(DMD)、オブジェクト検出用のYOLOv5、および姿勢推定用の3D機械学習を組み合わせたソリューションを通じて対処します。 DMDはバックグラウンド減算に適用され、移動する前景オブジェクトをリアルタイムで検出できます。検出された動きを含むビデオフレームが抽出され、変化検出ネットワークへの入力として使用されます。オブジェクト検出アルゴリズムYOLOv5は、ビデオフレーム内で検出されたオブジェクトの境界ボックスを抽出するために適用されます。さらに、各オブジェクトの回転ポーズは、3Dポーズ推定ネットワークで推定されます。一連の畳み込みニューラルネットワークは、画像と3Dモデル形状から特徴抽出を実行します。次に、ネットワークは、入力画像内のオブジェクトに対するカメラの向きの推定オイラー角を出力します。検出されたポーズの変化に関連するデータのみを保存することで、必要なストレージと帯域幅の要件を最小限に抑えながら、オンデマンドで3Dシーンを再作成できます。
Digital twins are meant to bridge the gap between real-world physical systems and virtual representations. Both stand-alone and descriptive digital twins incorporate 3D geometric models, which are the physical representations of objects in the digital replica. Digital twin applications are required to rapidly update internal parameters with the evolution of their physical counterpart. Due to an essential need for having high-quality geometric models for accurate physical representations, the storage and bandwidth requirements for storing 3D model information can quickly exceed the available storage and bandwidth capacity. In this work, we demonstrate a novel approach to geometric change detection in the context of a digital twin. We address the issue through a combined solution of Dynamic Mode Decomposition (DMD) for motion detection, YOLOv5 for object detection, and 3D machine learning for pose estimation. DMD is applied for background subtraction, enabling detection of moving foreground objects in real-time. The video frames containing detected motion are extracted and used as input to the change detection network. The object detection algorithm YOLOv5 is applied to extract the bounding boxes of detected objects in the video frames. Furthermore, the rotational pose of each object is estimated in a 3D pose estimation network. A series of convolutional neural networks conducts feature extraction from images and 3D model shapes. Then, the network outputs the estimated Euler angles of the camera orientation with respect to the object in the input image. By only storing data associated with a detected change in pose, we minimize necessary storage and bandwidth requirements while still being able to recreate the 3D scene on demand.
updated: Mon Mar 15 2021 08:20:16 GMT+0000 (UTC)
published: Mon Mar 15 2021 08:20:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト