ロボットが障害を検出して対応するには、実行の監視が不可欠です。特定のタスクのすべての失敗を列挙することは不可能であるため、タスクの正常な実行から学習して、実行時に視覚的な異常を検出します。私たちの方法は、カメラやロボットの体の動きなど、タスクの名目上の実行中に発生する動きを予測することを学習します。確率的U-Netアーキテクチャは、オプティカルフローの予測を学習するために使用され、ロボットの運動学と3Dモデルは、カメラと体の動きをモデル化するために使用されます。観測された動きと予測された動きの間の誤差は、異常スコアを計算するために使用されます。本を棚に置くロボットのデータセットでこの方法を評価します。これには、本の落下、カメラの閉塞、ロボットの障害などの異常が含まれます。学習ベースのオプティカルフロー予測に加えて、カメラと体の動きをモデル化すると、受信者動作特性曲線の下の領域が0.752から0.804に、適合率再現率曲線の下の領域が0.467から0.804に改善されることがわかります。 0.549。
Execution monitoring is essential for robots to detect and respond to failures. Since it is impossible to enumerate all failures for a given task, we learn from successful executions of the task to detect visual anomalies during runtime. Our method learns to predict the motions that occur during the nominal execution of a task, including camera and robot body motion. A probabilistic U-Net architecture is used to learn to predict optical flow, and the robot's kinematics and 3D model are used to model camera and body motion. The errors between the observed and predicted motion are used to calculate an anomaly score. We evaluate our method on a dataset of a robot placing a book on a shelf, which includes anomalies such as falling books, camera occlusions, and robot disturbances. We find that modeling camera and body motion, in addition to the learning-based optical flow prediction, results in an improvement of the area under the receiver operating characteristic curve from 0.752 to 0.804, and the area under the precision-recall curve from 0.467 to 0.549.