Fashion IQ: A New Dataset Towards Retrieving Images by Natural Language Feedback
詳細志向の小売ファッションドメインの会話型インターフェースは、従来のキーワードベースの検索インターフェースよりも自然で表現力があり、ユーザーフレンドリーです。この論文では、インタラクティブなファッション画像検索の研究をサポートし、前進させるためのファッションIQデータセットを紹介します。 Fashion IQは、人間が生成したキャプションを提供する最初のファッションデータセットであり、衣服の画像の類似したペアを、実際の製品の説明とこれらの画像の派生した視覚的属性ラベルで構成されるサイド情報とともに区別します。 Fashion IQデータの特性の詳細な分析を提供し、視覚属性を画像機能、ユーザーフィードバック、ダイアログ履歴とシームレスに統合できるトランスベースのユーザーシミュレーターとインタラクティブな画像検索機能を提供し、州全体のパフォーマンスを向上させますダイアログベースの画像検索における最新技術。私たちのデータセットは、より自然で現実世界に適用可能な会話型ショッピングアシスタントの開発に向けたさらなる作業を促進すると信じています。
Conversational interfaces for the detail-oriented retail fashion domain are more natural, expressive, and user friendly than classical keyword-based search interfaces. In this paper, we introduce the Fashion IQ dataset to support and advance research on interactive fashion image retrieval. Fashion IQ is the first fashion dataset to provide human-generated captions that distinguish similar pairs of garment images together with side-information consisting of real-world product descriptions and derived visual attribute labels for these images. We provide a detailed analysis of the characteristics of the Fashion IQ data, and present a transformer-based user simulator and interactive image retriever that can seamlessly integrate visual attributes with image features, user feedback, and dialog history, leading to improved performance over the state of the art in dialog-based image retrieval. We believe that our dataset will encourage further work on developing more natural and real-world applicable conversational shopping assistants.
updated: Wed Nov 25 2020 22:10:37 GMT+0000 (UTC)
published: Thu May 30 2019 00:15:12 GMT+0000 (UTC)
