arXiv reaDer
データセットには政治がありますか?コンピュータビジョンデータセット開発における懲戒的価値
Do Datasets Have Politics? Disciplinary Values in Computer Vision Dataset Development
データは機械学習の重要な要素です。この分野は、モデルのトレーニング、検証、およびテストをデータに依存しています。技術力の向上に伴い、機械学習の研究は学術と業界の両方の設定で活況を呈しており、1つの主要な焦点はコンピュータービジョンにあります。コンピュータビジョンは、警察での顔認識から自動運転車の物体検出まで、実際のアプリケーションにますます関連する機械学習の人気のある領域です。機械学習の研究を形作り、人間の生活に影響を与えるコンピュータービジョンの傾向を踏まえ、データセットのドキュメントに関する懲戒処分を理解しようとしています。 。具体的には、ビジョンデータの基本的な価値と、フィールドとしてのコンピュータービジョンのより大きな実践と目標について、データセットのドキュメントがどのように伝達するかを調べます。この調査を実施するために、約500のコンピュータービジョンデータセットのコーパスを収集し、そこからさまざまなビジョンタスクにわたる114のデータセット出版物をサンプリングしました。構造化されたコンテンツ分析とテーマ別コンテンツ分析の両方を通じて、受け入れられたデータプラクティス、望ましいデータを作成するもの、およびデータセット構築プロセスにおける人間の扱いに関する多くの価値を文書化します。コンピュータビジョンデータセットの作成者が、ケアを犠牲にして効率をどのように評価するかについて説明します。文脈性を犠牲にして普遍性;位置性を犠牲にして公平性;データ作業を犠牲にしてモデル作業を行います。私たちが特定する沈黙の価値観の多くは、ソーシャルコンピューティングの慣行に反対しています。最後に、データセットの作成およびキュレーションプロセスに無音の値をより適切に組み込む方法についての提案を示します。
Data is a crucial component of machine learning. The field is reliant on data to train, validate, and test models. With increased technical capabilities, machine learning research has boomed in both academic and industry settings, and one major focus has been on computer vision. Computer vision is a popular domain of machine learning increasingly pertinent to real-world applications, from facial recognition in policing to object detection for autonomous vehicles. Given computer vision's propensity to shape machine learning research and impact human life, we seek to understand disciplinary practices around dataset documentation - how data is collected, curated, annotated, and packaged into datasets for computer vision researchers and practitioners to use for model tuning and development. Specifically, we examine what dataset documentation communicates about the underlying values of vision data and the larger practices and goals of computer vision as a field. To conduct this study, we collected a corpus of about 500 computer vision datasets, from which we sampled 114 dataset publications across different vision tasks. Through both a structured and thematic content analysis, we document a number of values around accepted data practices, what makes desirable data, and the treatment of humans in the dataset construction process. We discuss how computer vision datasets authors value efficiency at the expense of care; universality at the expense of contextuality; impartiality at the expense of positionality; and model work at the expense of data work. Many of the silenced values we identify sit in opposition with social computing practices. We conclude with suggestions on how to better incorporate silenced values into the dataset creation and curation process.
updated: Mon Aug 09 2021 19:07:58 GMT+0000 (UTC)
published: Mon Aug 09 2021 19:07:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト