Pose Guided Attention for Multi-label Fashion Image Classification
 ファッション分野におけるマルチラベル分類のためのガイド付き注意を伴うコンパクトなフレームワークを提案します。私たちの視覚意味的注意モデル(VSAM)は、差別的な特徴空間を作成する自動ポーズ抽出によって監視されます。 VSAMは、社内データセットの最新技術よりも優れており、ランドマークアノテーションを使用しなくても、DeepFashionデータセットに関する以前の作業と同等の性能を発揮します。さらに、セマンティックアテンションモジュールが大量の誤った注釈に堅牢性をもたらし、より解釈可能な結果を提供することを示します。
We propose a compact framework with guided attention for multi-label classification in the fashion domain. Our visual semantic attention model (VSAM) is supervised by automatic pose extraction creating a discriminative feature space. VSAM outperforms the state of the art for an in-house dataset and performs on par with previous works on the DeepFashion dataset, even without using any landmark annotations. Additionally, we show that our semantic attention module brings robustness to large quantities of wrong annotations and provides more interpretable results.
updated: Tue Nov 12 2019 17:32:53 GMT+0000 (UTC)
published: Tue Nov 12 2019 17:32:53 GMT+0000 (UTC)
