arXiv reaDer
FGAHOI: 人間と物体の相互作用を検出するためのきめの細かいアンカー
FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection
コンピューター ビジョンの重要な問題であるヒューマン オブジェクト インタラクション (HOI) では、人間とオブジェクトのペアを特定し、それらの間のインタラクティブな関係を特定する必要があります。 HOI インスタンスは、個々のオブジェクト インスタンスよりも空間、スケール、およびタスクのスパンが大きいため、その検出はノイズの多い背景の影響を受けやすくなります。 HOI 検出時のノイズの多い背景の乱れを軽減するには、入力画像情報を考慮して、HOI インスタンスの検出をガイドするために利用されるきめの細かいアンカーを生成する必要があります。しかし、以下の理由で難しい。 i) 複雑な背景情報を含む画像から極めて重要な特徴を抽出する方法は、まだ未解決の問題です。 ii) 抽出された特徴とクエリの埋め込みを意味的に揃える方法も難しい問題です。この論文では、上記の問題を軽減するために、新しいエンドツーエンドのトランスフォーマーベースのフレームワーク (FGAHOI) が提案されています。 FGAHOI は、マルチスケール サンプリング (MSS)、階層空間認識マージ (HSAM)、およびタスク認識マージ メカニズム (TAM) の 3 つの専用コンポーネントで構成されます。 MSS は、さまざまなスケールの HOI インスタンスのノイズの多い背景から、人間、オブジェクト、およびインタラクション エリアの特徴を抽出します。 HSAM と TAM は、抽出された特徴を意味的に整列させてマージし、階層的な空間パースペクティブとタスク パースペクティブで順番に埋め込みをクエリします。一方、新しいトレーニング戦略のステージごとのトレーニング戦略は、FGAHOI によって行われる過度に複雑なタスクによって引き起こされるトレーニングのプレッシャーを軽減するように設計されています。さらに、HOI 検出の難しさを測定する 2 つの方法と、HOI の 2 つの課題 (人間とオブジェクトのペアの不均一な分布領域と人間とオブジェクトのペアの長距離ビジュアル モデリング) に対する HOI-SDC という新しいデータセットを提案します。インスタンス検出。
Human-Object Interaction (HOI), as an important problem in computer vision, requires locating the human-object pair and identifying the interactive relationships between them. The HOI instance has a greater span in spatial, scale, and task than the individual object instance, making its detection more susceptible to noisy backgrounds. To alleviate the disturbance of noisy backgrounds on HOI detection, it is necessary to consider the input image information to generate fine-grained anchors which are then leveraged to guide the detection of HOI instances. However, it is challenging for the following reasons. i) how to extract pivotal features from the images with complex background information is still an open question. ii) how to semantically align the extracted features and query embeddings is also a difficult issue. In this paper, a novel end-to-end transformer-based framework (FGAHOI) is proposed to alleviate the above problems. FGAHOI comprises three dedicated components namely, multi-scale sampling (MSS), hierarchical spatial-aware merging (HSAM) and task-aware merging mechanism (TAM). MSS extracts features of humans, objects and interaction areas from noisy backgrounds for HOI instances of various scales. HSAM and TAM semantically align and merge the extracted features and query embeddings in the hierarchical spatial and task perspectives in turn. In the meanwhile, a novel training strategy Stage-wise Training Strategy is designed to reduce the training pressure caused by overly complex tasks done by FGAHOI. In addition, we propose two ways to measure the difficulty of HOI detection and a novel dataset, i.e., HOI-SDC for the two challenges (Uneven Distributed Area in Human-Object Pairs and Long Distance Visual Modeling of Human-Object Pairs) of HOI instances detection.
updated: Sun Jan 08 2023 03:53:50 GMT+0000 (UTC)
published: Sun Jan 08 2023 03:53:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト