arXiv reaDer
自然な人間とロボットの相互作用のための数ショットの視覚的接地
Few-Shot Visual Grounding for Natural Human-Robot Interaction
自然な人間とロボットの相互作用(HRI)は、サービスロボットが人間中心の環境で動作できるようにするための重要なコンポーネントの1つです。このような動的な環境では、ロボットはタスクを正常に実行するためにユーザーの意図を理解する必要があります。この点に対処するために、我々は、人間のユーザーによって口頭で示される、混雑したシーンからターゲットオブジェクトをセグメント化するソフトウェアアーキテクチャを提案します。私たちのシステムの中核では、視覚的接地のためにマルチモーダルディープニューラルネットワークを採用しています。 2段階のプロセスを介して事前に訓練された物体検出器を使用して課題に取り組むほとんどの接地方法とは異なり、私たちは目に見えないデータで予測を提供できる単一ステージのゼロショットモデルを開発します。パブリックシーンデータセットから収集された実際のRGB-Dデータで提案されたモデルのパフォーマンスを評価します。実験結果は、提案されたモデルが、自然言語入力の変動に対するロバスト性を示しながら、精度と速度の点で良好に機能することを示しました。
Natural Human-Robot Interaction (HRI) is one of the key components for service robots to be able to work in human-centric environments. In such dynamic environments, the robot needs to understand the intention of the user to accomplish a task successfully. Towards addressing this point, we propose a software architecture that segments a target object from a crowded scene, indicated verbally by a human user. At the core of our system, we employ a multi-modal deep neural network for visual grounding. Unlike most grounding methods that tackle the challenge using pre-trained object detectors via a two-stepped process, we develop a single stage zero-shot model that is able to provide predictions in unseen data. We evaluate the performance of the proposed model on real RGB-D data collected from public scene datasets. Experimental results showed that the proposed model performs well in terms of accuracy and speed, while showcasing robustness to variation in the natural language input.
updated: Wed Mar 17 2021 15:24:02 GMT+0000 (UTC)
published: Wed Mar 17 2021 15:24:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト