arXiv reaDer
目に見えない属性-オブジェクト構成を推測することを学ぶ
Learning to Infer Unseen Attribute-Object Compositions
目に見えない属性オブジェクトの構成認識は、機械が人間のような複雑な概念を分解して構成することを学習させるために重要です。既存の方法のほとんどは、単一属性オブジェクトの構図認識に限定されており、外観が似ている構図を区別することはほとんどできません。本論文では、単一属性オブジェクトと複数属性オブジェクトの両方の構成を柔軟に認識できるグラフベースのモデルを提案します。モデルは、画像の視覚的特徴と、単語埋め込みベクトルによって表される属性オブジェクトカテゴリラベルを潜在空間にマッピングします。次に、属性とオブジェクトの意味的関連の制約に従って、視覚的特徴と潜在空間内の対応するラベルの意味的特徴との間の距離が計算されます。推論中、すべての構図の中で特定の画像の特徴に最も近い構図が推論結果として使用されます。さらに、116,099の画像と8,030の構成カテゴリを使用して、大規模なマルチ属性データセット(MAD)を構築します。 MADと他の2つの単一属性オブジェクトベンチマークデータセットでの実験は、私たちのアプローチの有効性を示しています。
The composition recognition of unseen attribute-object is critical to make machines learn to decompose and compose complex concepts like people. Most of the existing methods are limited to the composition recognition of single-attribute-object, and can hardly distinguish the compositions with similar appearances. In this paper, a graph-based model is proposed that can flexibly recognize both single- and multi-attribute-object compositions. The model maps the visual features of images and the attribute-object category labels represented by word embedding vectors into a latent space. Then, according to the constraints of the attribute-object semantic association, distances are calculated between visual features and the corresponding label semantic features in the latent space. During the inference, the composition that is closest to the given image feature among all compositions is used as the reasoning result. In addition, we build a large-scale Multi-Attribute Dataset (MAD) with 116,099 images and 8,030 composition categories. Experiments on MAD and two other single-attribute-object benchmark datasets demonstrate the effectiveness of our approach.
updated: Tue Nov 03 2020 09:32:41 GMT+0000 (UTC)
published: Tue Oct 27 2020 14:57:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト