研究によると、画像検索の結果に表示される人々は、社会的に顕著な属性に関して多数派である傾向があることがわかっています。このスキューは、すでに世界に存在しているものを超えています-たとえば、Kay et al。米国のCEOの28%が女性であるにもかかわらず、Google画像検索のCEOのトップ100の結果の10%だけが女性であることを示しました。この種のバイアスを修正するための既存のアプローチのほとんどは、人々の画像に社会的に顕著な属性ラベルが含まれていることを前提としています。ただし、そのようなラベルは不明なことがよくあります。さらに、これらのラベルを推測するために自動化された技術を使用することは、許容可能な精度の範囲内では不可能である場合が多く、このプロセスで発生する可能性がある追加のバイアスのために望ましくない場合があります。視覚的に多様な画像の制御セットを入力として受け取り、このセットを使用してクエリに応答して人々の画像のセットを選択する新しいアプローチを開発します。目標は、コントロールセットに示される多様性をエミュレートする方法で、より視覚的に多様な結果セットを持つことです。重要なことに、このアプローチでは、画像にラベルを付ける必要はありません。効果的には、選択した画像のセットを暗黙的に多様化する方法を提供します。アプローチの2つのバリアントを提供します。1つは多様性スコアを組み込むためのMMRアルゴリズムの変更であり、2つ目はリスト内の冗長性を考慮しないより効率的なバリアントです。これらのアプローチを2つのデータセットで経験的に評価します。1)96の職業に関するGoogleの上位画像結果を含む新しいデータセット。職業に関しては性別と肌のトーンの多様性を評価します。2)ジェンダーの多様性を尊重して評価するCelebAデータセットを使用します。顔の特徴に。私たちのアプローチは、現在のGoogle検索や他の多様な画像要約アルゴリズムと比較して、結果の目に見える多様性を大幅に改善する画像セットを、精度を最小限に抑えて生成します。
Studies have shown that the people depicted in image search results tend to be of majority groups with respect to socially salient attributes. This skew goes beyond that which already exists in the world - e.g., Kay et al. showed that although 28% of CEOs in US are women, only 10% of the top 100 results for CEO in Google Image Search are women. Most existing approaches to correct for this kind of bias assume that the images of people include socially salient attribute labels. However, such labels are often unknown. Further, using automated techniques to infer these labels may often not be possible within acceptable accuracy ranges, and may not be desirable due to the additional biases this process could incur. We develop a novel approach that takes as input a visibly diverse control set of images and uses this set to select a set of images of people in response to a query. The goal is to have a resulting set that is more visibly diverse in a manner that emulates the diversity depicted in the control set. Importantly, this approach does not require images to be labelled at any point; effectively, it gives a way to implicitly diversify the set of images selected. We provide two variants of our approach: the first is a modification of the MMR algorithm to incorporate the diversity scores, and second is a more efficient variant that does not consider within-list redundancy. We evaluate these approaches empirically on two datasets 1) a new dataset containing top Google image results for 96 occupations, for which we evaluate gender and skin-tone diversity with respect to occupations and 2) the CelebA dataset for which we evaluate gender diversity with respect to facial features. Our approaches produce image sets that significantly improve the visible diversity of the results, compared to current Google search and other diverse image summarization algorithms, at a minimal cost to accuracy.