arXiv reaDer
FashionSearchNet-v2:属性操作による画像検索のためのローカリゼーションによる属性表現の学習
FashionSearchNet-v2: Learning Attribute Representations with Localization for Image Retrieval with Attribute Manipulation
この論文の焦点は、属性操作による画像検索の問題にあります。私たちが提案する作業は、他の属性を維持しながら、クエリ画像の目的の属性を操作することができます。たとえば、クエリ画像のcollar属性をroundからv-neckに変更して、大きなデータセットから同様の画像を取得できます。電子商取引における重要な課題は、画像がユーザーが操作したい複数の属性を持っていることであり、これらの属性のそれぞれについて識別可能な特徴表現を推定することが重要です。提案されたFashionSearchNet-v2アーキテクチャは、弱く監視されたローカリゼーションモジュールを活用することで、属性固有の表現を学習できます。このモジュールは、特徴空間内の属性の無関係な特徴を無視するため、類似性学習が向上します。ネットワークは、ローカル表現を推定するために、属性分類とトリプレットランキング損失の組み合わせで共同でトレーニングされます。次に、これらのローカル表現は、指示された属性操作に基づいて単一のグローバル表現にマージされ、距離メトリックを使用して目的の画像を取得できます。提案された方法はまた、ネットワークの注意に関する追加情報を提供するのに役立つ検索プロセスの説明可能性を提供します。属性の数が豊富ないくつかのデータセットで実行された実験は、FashionSearchNet-v2が他の最先端の属性操作技術よりも優れていることを示しています。以前の作業(FashionSearchNet)とは異なり、学習手順のいくつかの改善を提案し、提案されたFashionSearchNet-v2をファッション以外のさまざまなドメインに一般化できることを示します。
The focus of this paper is on the problem of image retrieval with attribute manipulation. Our proposed work is able to manipulate the desired attributes of the query image while maintaining its other attributes. For example, the collar attribute of the query image can be changed from round to v-neck to retrieve similar images from a large dataset. A key challenge in e-commerce is that images have multiple attributes where users would like to manipulate and it is important to estimate discriminative feature representations for each of these attributes. The proposed FashionSearchNet-v2 architecture is able to learn attribute specific representations by leveraging on its weakly-supervised localization module, which ignores the unrelated features of attributes in the feature space, thus improving the similarity learning. The network is jointly trained with the combination of attribute classification and triplet ranking loss to estimate local representations. These local representations are then merged into a single global representation based on the instructed attribute manipulation where desired images can be retrieved with a distance metric. The proposed method also provides explainability for its retrieval process to help provide additional information on the attention of the network. Experiments performed on several datasets that are rich in terms of the number of attributes show that FashionSearchNet-v2 outperforms the other state-of-the-art attribute manipulation techniques. Different than our earlier work (FashionSearchNet), we propose several improvements in the learning procedure and show that the proposed FashionSearchNet-v2 can be generalized to different domains other than fashion.
updated: Sun Nov 28 2021 13:50:20 GMT+0000 (UTC)
published: Sun Nov 28 2021 13:50:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト