arXiv reaDer
人体相互作用検出のためのポーズ認識マルチレベル機能ネットワーク
Pose-aware Multi-level Feature Network for Human Object Interaction Detection
  人間オブジェクトの相互作用を推論することは、人間中心のシーンの理解における中心的な問題であり、そのような関係を検出することは、人間オブジェクト構成の大きな変動、複数の共起関係インスタンス、および関係カテゴリ間の微妙な視覚的差異により、視覚システムに特有の課題をもたらします。これらの課題に対処するために、人間のポーズキューを使用して関係のグローバルな空間構成をキャプチャし、人間の部分レベルで関連領域に動的にズームする注意メカニズムとしてマルチレベルの関係検出戦略を提案します。具体的には、マルチブランチディープネットワークを開発して、相互作用コンテキスト、オブジェクト機能、および詳細なセマンティックパーツキューを組み込んだ、3つのセマンティックレベルでポーズ拡張された関係表現を学習します。その結果、私たちのアプローチは、解釈可能な出力とのきめの細かい人間オブジェクトの相互作用に関する堅牢な予測を生成することができます。公開ベンチマークでの広範な実験的評価は、我々のモデルがかなりのマージンで従来の方法よりも優れていることを示しており、複雑なシーンの処理におけるその有効性を示しています。
Reasoning human object interactions is a core problem in human-centric scene understanding and detecting such relations poses a unique challenge to vision systems due to large variations in human-object configurations, multiple co-occurring relation instances and subtle visual difference between relation categories. To address those challenges, we propose a multi-level relation detection strategy that utilizes human pose cues to capture global spatial configurations of relations and as an attention mechanism to dynamically zoom into relevant regions at human part level. Specifically, we develop a multi-branch deep network to learn a pose-augmented relation representation at three semantic levels, incorporating interaction context, object features and detailed semantic part cues. As a result, our approach is capable of generating robust predictions on fine-grained human object interactions with interpretable outputs. Extensive experimental evaluations on public benchmarks show that our model outperforms prior methods by a considerable margin, demonstrating its efficacy in handling complex scenes.
updated: Wed Sep 18 2019 13:47:37 GMT+0000 (UTC)
published: Wed Sep 18 2019 13:47:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト