arXiv reaDer
デモンストレーションビデオから視覚的アフォーダンスの根拠を学ぶ
Learning Visual Affordance Grounding from Demonstration Videos
視覚的アフォーダンスの接地は、画像/ビデオから人と物体の間のすべての可能な相互作用領域をセグメント化することを目的としています。これは、ロボットの把握や行動認識などの多くのアプリケーションに役立ちます。ただし、既存の方法は、主にオブジェクトの外観機能に依存して画像の各領域をセグメント化します。これには、次の2つの問題があります。(i)オブジェクト内に人が対話する可能性のある領域が複数ある。 (ii)同じオブジェクト領域内に複数の可能な人間の相互作用があります。これらの問題に対処するために、デモンストレーションビデオで手の位置と動作によって提供される支援された手がかりを活用して、複数の可能性を排除し、オブジェクト内の相互作用領域をより適切に特定する、ハンドエイドアフォーダンスグラウンディングネットワーク(HAGNet)を提案します。具体的には、HAG-Netは、デモビデオとオブジェクト画像を処理するためのデュアルブランチ構造を備えています。ビデオブランチでは、各ビデオフレームの手の周りの領域を強化するための手による注意を導入し、LSTMネットワークを使用してアクション機能を集約します。オブジェクトブランチについては、セマンティックエンハンスメントモジュール(SEM)を導入して、アクションクラスに応じてオブジェクトのさまざまな部分にネットワークを集中させ、蒸留損失を利用してオブジェクトブランチの出力機能をビデオブランチの出力機能に合わせます。ビデオブランチの知識をオブジェクトブランチに転送します。 2つの挑戦的なデータセットの定量的および定性的評価は、私たちの方法がアフォーダンスの根拠となる最先端の結果を達成したことを示しています。ソースコードは一般に公開されます。
Visual affordance grounding aims to segment all possible interaction regions between people and objects from an image/video, which is beneficial for many applications, such as robot grasping and action recognition. However, existing methods mainly rely on the appearance feature of the objects to segment each region of the image, which face the following two problems: (i) there are multiple possible regions in an object that people interact with; and (ii) there are multiple possible human interactions in the same object region. To address these problems, we propose a Hand-aided Affordance Grounding Network (HAGNet) that leverages the aided clues provided by the position and action of the hand in demonstration videos to eliminate the multiple possibilities and better locate the interaction regions in the object. Specifically, HAG-Net has a dual-branch structure to process the demonstration video and object image. For the video branch, we introduce hand-aided attention to enhance the region around the hand in each video frame and then use the LSTM network to aggregate the action features. For the object branch, we introduce a semantic enhancement module (SEM) to make the network focus on different parts of the object according to the action classes and utilize a distillation loss to align the output features of the object branch with that of the video branch and transfer the knowledge in the video branch to the object branch. Quantitative and qualitative evaluations on two challenging datasets show that our method has achieved stateof-the-art results for affordance grounding. The source code will be made available to the public.
updated: Thu Aug 12 2021 11:45:38 GMT+0000 (UTC)
published: Thu Aug 12 2021 11:45:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト