機械学習のバイアスの測定は、多くの場合、グラウンドトゥルースラベルに関するアイデンティティサブグループ(男性や女性など)全体のモデルパフォーマンスに焦点を当てています。ただし、これらのメソッドは、たとえばラベルとIDサブグループ間など、モデルが学習した可能性のある関連付けを直接測定しません。さらに、モデルのバイアスを測定するには、完全に注釈が付けられた評価データセットが必要ですが、実際には簡単に利用できない場合があります。実用的な例として画像分類を使用して、両方の問題に同時に取り組むエレガントな数学的ソリューションを提示します。特定の画像に対する分類モデルの予測を単語の袋に類似したラベルのセットとして扱うことにより、さまざまなIDラベルに関してモデルが学習したバイアスをランク付けします。 IDラベルセットの具体例として(男性、女性)を使用し(このセットはバイナリである必要はありません)、どちらかのIDに最も偏っているラベルのランキングを示します。さまざまな関連指標の統計的特性が、最も「性別に偏った」ラベルのさまざまなランキングにどのようにつながるかを示し、正規化されたポイントごとの相互情報(nPMI)が実際に最も役立つと結論付けます。最後に、TensorBoardを使用したオープンソースのnPMI視覚化ツールを発表します。
The measurement of bias in machine learning often focuses on model performance across identity subgroups (such as man and woman) with respect to groundtruth labels. However, these methods do not directly measure the associations that a model may have learned, for example between labels and identity subgroups. Further, measuring a model's bias requires a fully annotated evaluation dataset which may not be easily available in practice. We present an elegant mathematical solution that tackles both issues simultaneously, using image classification as a working example. By treating a classification model's predictions for a given image as a set of labels analogous to a bag of words, we rank the biases that a model has learned with respect to different identity labels. We use (man, woman) as a concrete example of an identity label set (although this set need not be binary), and present rankings for the labels that are most biased towards one identity or the other. We demonstrate how the statistical properties of different association metrics can lead to different rankings of the most "gender biased" labels, and conclude that normalized pointwise mutual information (nPMI) is most useful in practice. Finally, we announce an open-sourced nPMI visualization tool using TensorBoard.