arXiv reaDer
カメラトラップ画像での種の識別とカウントのためのディープアクティブ学習システム
A deep active learning system for species identification and counting in camera trap images
  生物多様性の保全は、野生生物の個体数分布に関する正確で最新の情報に依存しています。カメラトラップとも呼ばれるモーション起動カメラは、安価で邪魔にならないため、人口調査の重要なツールです。ただし、カメラトラップ画像から有用な情報を抽出するのは面倒なプロセスです。通常のカメラトラップ調査では、数百万枚の画像が生成され、時間がかかり、高価な手動レビューが必要になる場合があります。その結果、リソースの制限により重要な情報が失われることが多く、意思決定をサポートするには重要な保全の質問への回答が遅すぎる場合があります。コンピュータービジョンは、画像ベースの生物多様性調査の効率を劇的に向上させる態勢が整っており、最近の研究では、カメラトラップ画像からの自動情報抽出のための深層学習技術を活用しています。ただし、結果の精度は、モデルのトレーニングに使用できるデータの量、品質、および多様性に依存し、文献では、数百万の関連するラベル付きトレーニング画像を使用したプロジェクトに焦点を当てています。多くのカメラトラッププロジェクトには、ラベル付けされた画像の大きなセットがないため、既存の機械学習技術の恩恵を受けることができません。さらに、類似のエコシステムからのデータにラベルを付けたプロジェクトでさえ、画像分類モデルが特定の画像背景(つまり、カメラの位置)に適合しているため、深層学習法の採用に苦労しています。このホワイトペーパーでは、カメラトラップ画像のラベリングの自動化ではなく、このプロセスの高速化に焦点を当てています。機械インテリジェンスと人間インテリジェンスのパワーを組み合わせて、スケーラブルで高速かつ正確なアクティブラーニングシステムを構築し、カメラトラップ画像で動物を特定して数えるのに必要な手作業を最小限に抑えます。提案されたスキームは、わずか14,100の手動ラベルで320万の画像データセットの最先端の精度と一致させることができます。これは、手動ラベル付けの労力を99.5%以上削減することを意味します。
Biodiversity conservation depends on accurate, up-to-date information about wildlife population distributions. Motion-activated cameras, also known as camera traps, are a critical tool for population surveys, as they are cheap and non-intrusive. However, extracting useful information from camera trap images is a cumbersome process: a typical camera trap survey may produce millions of images that require slow, expensive manual review. Consequently, critical information is often lost due to resource limitations, and critical conservation questions may be answered too slowly to support decision-making. Computer vision is poised to dramatically increase efficiency in image-based biodiversity surveys, and recent studies have harnessed deep learning techniques for automatic information extraction from camera trap images. However, the accuracy of results depends on the amount, quality, and diversity of the data available to train models, and the literature has focused on projects with millions of relevant, labeled training images. Many camera trap projects do not have a large set of labeled images and hence cannot benefit from existing machine learning techniques. Furthermore, even projects that do have labeled data from similar ecosystems have struggled to adopt deep learning methods because image classification models overfit to specific image backgrounds (i.e., camera locations). In this paper, we focus not on automating the labeling of camera trap images, but on accelerating this process. We combine the power of machine intelligence and human intelligence to build a scalable, fast, and accurate active learning system to minimize the manual work required to identify and count animals in camera trap images. Our proposed scheme can match the state of the art accuracy on a 3.2 million image dataset with as few as 14,100 manual labels, which means decreasing manual labeling effort by over 99.5%.
updated: Tue Oct 22 2019 01:03:33 GMT+0000 (UTC)
published: Tue Oct 22 2019 01:03:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト