arXiv reaDer
人間と物体の相互作用認識における見落とされた分類器
The Overlooked Classifier in Human-Object Interaction Recognition
Human-Object Interaction(HOI)の認識は、(1)クラス間の重大な不均衡と、(2)画像ごとに複数のラベルが必要なという2つの要因のために困難です。このホワイトペーパーでは、バックボーンアーキテクチャをそのままにして分類器を改善することで、これら2つの課題に効果的に対処できることを示しています。まず、HOIの言語埋め込みを使用して重みを初期化することにより、クラス間の意味相関を分類ヘッドにエンコードします。その結果、特に数ショットのサブセットの場合、パフォーマンスが大幅に向上します。次に、ロングテールデータセットでのマルチラベル学習を強化するために、LSE-Signという名前の新しい損失を提案します。私たちのシンプルで効果的な方法は、検出のないHOI分類を可能にし、オブジェクトの検出と人間のポーズを必要とする最先端技術を明確に上回ります。さらに、分類モデルを既製のオブジェクト検出器に接続することにより、インスタンスレベルのHOI検出に転送します。追加の微調整なしで最先端を実現します。
Human-Object Interaction (HOI) recognition is challenging due to two factors: (1) significant imbalance across classes and (2) requiring multiple labels per image. This paper shows that these two challenges can be effectively addressed by improving the classifier with the backbone architecture untouched. Firstly, we encode the semantic correlation among classes into the classification head by initializing the weights with language embeddings of HOIs. As a result, the performance is boosted significantly, especially for the few-shot subset. Secondly, we propose a new loss named LSE-Sign to enhance multi-label learning on a long-tailed dataset. Our simple yet effective method enables detection-free HOI classification, outperforming the state-of-the-arts that require object detection and human pose by a clear margin. Moreover, we transfer the classification model to instance-level HOI detection by connecting it with an off-the-shelf object detector. We achieve state-of-the-art without additional fine-tuning.
updated: Thu Mar 10 2022 23:35:00 GMT+0000 (UTC)
published: Thu Mar 10 2022 23:35:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト