arXiv reaDer
The World of an Octopus: How Reporting Bias Influences a Language Model's Perception of Color
最近の研究により、テキストのみの事前トレーニングに固有の制限について懸念が生じています。この論文では、最初に報告バイアス、つまり人々が明白なことを述べない傾向がこの制限の原因の1つであることを示し、次にマルチモーダルトレーニングがこの問題をどの程度軽減できるかを調査します。これを実現するために、1)521個の一般的なオブジェクトの人間が知覚する色分布のデータセットである色データセット(CoDa)を生成します。 2)CoDaを使用して、テキストで見つかった色の分布、言語モデルによってキャプチャされた分布、および人間の色の知覚を分析および比較します。 3)CoDaのテキストのみのモデルとマルチモーダルモデルのパフォーマンスの違いを調査します。私たちの結果は、言語モデルが回復する色の分布が、グラウンドトゥルースよりもテキストに見られる不正確な分布とより強く相関することを示しており、報告バイアスがテキストのみのトレーニングに悪影響を及ぼし、本質的に制限するという主張を支持しています。次に、マルチモーダルモデルが視覚トレーニングを活用してこれらの影響を軽減し、将来の研究に有望な手段を提供できることを示します。
Recent work has raised concerns about the inherent limitations of text-only pretraining. In this paper, we first demonstrate that reporting bias, the tendency of people to not state the obvious, is one of the causes of this limitation, and then investigate to what extent multimodal training can mitigate this issue. To accomplish this, we 1) generate the Color Dataset (CoDa), a dataset of human-perceived color distributions for 521 common objects; 2) use CoDa to analyze and compare the color distribution found in text, the distribution captured by language models, and a human's perception of color; and 3) investigate the performance differences between text-only and multimodal models on CoDa. Our results show that the distribution of colors that a language model recovers correlates more strongly with the inaccurate distribution found in text than with the ground-truth, supporting the claim that reporting bias negatively impacts and inherently limits text-only training. We then demonstrate that multimodal models can leverage their visual training to mitigate these effects, providing a promising avenue for future research.
updated: Fri Oct 15 2021 16:28:17 GMT+0000 (UTC)
published: Fri Oct 15 2021 16:28:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト