arXiv reaDer
一般化に対する選択バイアスの影響の調査:思考実験
Probing the Effect of Selection Bias on Generalization: A Thought Experiment
視覚認識と認知の領域で学習したシステムは、可能な画像の全母集団よりも桁違いに小さいデータセットでトレーニングされているにもかかわらず、新しいデータやこれまでに見られなかったデータに適用できる十分な一般化を示しているため、部分的に印象的です。トレーニングデータセットは通常、ドメインの小さなサンプリングを表すため、それらの構成にバイアスがかかる可能性は非常に現実的です。しかし、そのようなバイアスが与えられた場合の一般化の限界は何であり、実際の問題のタスクにはどの時点までで十分でしょうか?多くの人が一般化に関する問題を検討しましたが、この質問ではデータ自体を検討する必要があるかもしれません。ここでは、役割を果たす可能性のあるトレーニングデータの特性に焦点を当てます。他の分野はこれらの問題に取り組んでおり、最も興味深いのは疫学であり、実験的バイアスが重大な懸念事項です。臨床的に見られるデータバイアスの範囲と性質は、学習したビジョンシステムに非常に関連しています。バイアスに対処するための明白な方法の1つは、十分な大きさのトレーニングセットを確保することですが、これは多くのドメインでは実行不可能な場合があります。別のアプローチは、実際のトレーニングセットの統計分析を実行して、ドメインのすべての側面が適切にキャプチャされているかどうかを判断することです。変数の完全なセットがわからないか、おそらくわからない可能性があるため、これも困難です。ここでは、思考実験の伝統の中で別のアプローチを試みます。その最も有名な例はシュレディンガーの猫かもしれません。これからわかるように、バイアスには多くの種類がありますが、ここでは1つの選択バイアスのみに焦点を当てます。思考実験のポイントは、学習したすべてのシステムの問題を実証することではありません。むしろ、これは、データ収集中のバイアスを調査して、データ収集またはシステム開発のいずれかで特別な注意を払うに値する可能性のある欠陥を強調するための単純な理論的ツールである可能性があります。
Learned systems in the domain of visual recognition and cognition impress in part because even though they are trained with datasets many orders of magnitude smaller than the full population of possible images, they exhibit sufficient generalization to be applicable to new and previously unseen data. Since training data sets typically represent small sampling of a domain, the possibility of bias in their composition is very real. But what are the limits of generalization given such bias, and up to what point might it be sufficient for a real problem task? Although many have examined issues regarding generalization, this question may require examining the data itself. Here, we focus on the characteristics of the training data that may play a role. Other disciplines have grappled with these problems, most interestingly epidemiology, where experimental bias is a critical concern. The range and nature of data biases seen clinically are really quite relatable to learned vision systems. One obvious way to deal with bias is to ensure a large enough training set, but this might be infeasible for many domains. Another approach might be to perform a statistical analysis of the actual training set, to determine if all aspects of the domain are fairly captured. This too is difficult, in part because the full set of variables might not be known, or perhaps not even knowable. Here, we try a different approach in the tradition of the Thought Experiment, whose most famous instance may be Schrödinger's Cat. There are many types of bias as will be seen, but we focus only on one, selection bias. The point of the thought experiment is not to demonstrate problems with all learned systems. Rather, this might be a simple theoretical tool to probe into bias during data collection to highlight deficiencies that might then deserve extra attention either in data collection or system development.
updated: Sat Apr 30 2022 14:20:14 GMT+0000 (UTC)
published: Thu May 20 2021 17:54:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト