過去数年間、ビジョンと言語の間のインターフェースでのNLPタスクへの新たな関心が目撃されています。集中的に研究されている問題の1つは、画像からテキストを自動的に生成することです。この論文では、この問題を顔の描写のより具体的な領域に拡張します。シーンの説明とは異なり、顔の説明はよりきめ細かく、オブジェクトや関係ではなく、画像から抽出された属性に依存します。このタスクのデータが存在しないことを考慮して、「野生で」撮影された顔画像の説明のコーパスを収集するための継続的なクラウドソーシング調査を提示します。顔の説明に見られる変化と、これが引き起こす可能性のある問題をよりよく理解するために、コーパスのサブセットに対して注釈調査も実施しました。主に、物理的だけでなく、感情的および推測的な属性の混合を参照する説明が見つかりました。これは、現在の画像からテキストへの方法にさらなる課題を生み出すことになります。
The past few years have witnessed renewed interest in NLP tasks at the interface between vision and language. One intensively-studied problem is that of automatically generating text from images. In this paper, we extend this problem to the more specific domain of face description. Unlike scene descriptions, face descriptions are more fine-grained and rely on attributes extracted from the image, rather than objects and relations. Given that no data exists for this task, we present an ongoing crowdsourcing study to collect a corpus of descriptions of face images taken `in the wild'. To gain a better understanding of the variation we find in face description and the possible issues that this may raise, we also conducted an annotation study on a subset of the corpus. Primarily, we found descriptions to refer to a mixture of attributes, not only physical, but also emotional and inferential, which is bound to create further challenges for current image-to-text methods.