arXiv reaDer
人間と物体の相互作用を検出するための空間解析および動的時間プーリングネットワーク
Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object Interaction detection
Human-Object Interaction(HOI)認識の鍵は、人間とオブジェクトの関係を推測することです。最近、画像のHuman-Object Interaction(HOI)検出が大幅に進歩しました。ただし、ビデオHOI検出パフォーマンスにはまだ改善の余地があります。既存のワンステージメソッドは、適切に設計されたエンドツーエンドネットワークを使用して、ビデオセグメントを検出し、相互作用を直接予測します。これにより、モデルの学習とネットワークのさらなる最適化がより複雑になります。このホワイトペーパーでは、ビデオ全体を人間とオブジェクトのノードを入力として持つ時空間グラフとして取得する、空間解析および動的時間プーリング(SPDTP)ネットワークを紹介します。既存の方法とは異なり、提案されたネットワークは、明示的な空間解析を通じて対話型と非対話型のペアの違いを予測し、対話認識を実行します。さらに、ビデオのキーフレームを強調し、冗長フレームを抑制するために、学習可能で微分可能なDynamic Temporal Module(DTM)を提案します。さらに、実験結果は、SPDTPがアクティブな人間とオブジェクトのペアおよび有効なキーフレームにより多くの注意を払うことができることを示しています。全体として、CAD-120データセットとSomething-Elseデータセットで最先端のパフォーマンスを実現しています。
The key of Human-Object Interaction(HOI) recognition is to infer the relationship between human and objects. Recently, the image's Human-Object Interaction(HOI) detection has made significant progress. However, there is still room for improvement in video HOI detection performance. Existing one-stage methods use well-designed end-to-end networks to detect a video segment and directly predict an interaction. It makes the model learning and further optimization of the network more complex. This paper introduces the Spatial Parsing and Dynamic Temporal Pooling (SPDTP) network, which takes the entire video as a spatio-temporal graph with human and object nodes as input. Unlike existing methods, our proposed network predicts the difference between interactive and non-interactive pairs through explicit spatial parsing, and then performs interaction recognition. Moreover, we propose a learnable and differentiable Dynamic Temporal Module(DTM) to emphasize the keyframes of the video and suppress the redundant frame. Furthermore, the experimental results show that SPDTP can pay more attention to active human-object pairs and valid keyframes. Overall, we achieve state-of-the-art performance on CAD-120 dataset and Something-Else dataset.
updated: Tue Jun 07 2022 07:26:06 GMT+0000 (UTC)
published: Tue Jun 07 2022 07:26:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト