arXiv reaDer
HumBugDB:大規模な音響蚊データセット
HumBugDB: A Large-scale Acoustic Mosquito Dataset
この論文は、自由飛行で継続的に追跡された蚊の音響記録の最初の大規模な複数種のデータセットを提示します。専門的にラベルを付け、正確に時間内にタグ付けした20時間のオーディオ録音を紹介します。重要なことに、18時間の録音には、36の異なる種からの注釈が含まれています。蚊は、マラリア、デング熱、黄熱病などの病気のよく知られた保因者です。このデータセットの収集は、蚊の音響を利用して調査を実施し、発生を予測して介入方針を通知するアプリケーションを支援する必要性に動機付けられています。現実的なシナリオから記録を収集することは困難であるため、羽ばたきの音から蚊を検出する作業は困難です。これに対処するために、HumBugプロジェクトの一環として、養殖ケージで飼育された蚊から野生で捕獲された蚊まで、さまざまな蚊を記録するための世界的な実験を実施しました。その結果、オーディオ録音は信号対雑音比が異なり、タンザニア、タイ、ケニア、米国、英国からの幅広い屋内および屋外の背景環境が含まれています。このホワイトペーパーでは、データの収集、ラベル付け、キュレーションの方法について詳しく説明します。データはPostgreSQLデータベースから提供されます。このデータベースには、蚊の捕獲方法、年齢、摂食状況、性別などの重要なメタデータが含まれています。さらに、特徴を抽出し、対応するバックグラウンド環境からの蚊の識別と、検出された蚊の種への分類という2つの主要なタスクのためにベイズ畳み込みニューラルネットワークをトレーニングするコードを提供します。私たちの広範なデータセットは、音響識別に焦点を当てた機械学習研究者にとって挑戦的であり、昆虫学者、地理空間モデラー、およびその他の領域の専門家にとって、蚊の行動を理解し、その分布をモデル化し、人間に与える脅威を管理するために重要です。
This paper presents the first large-scale multi-species dataset of acoustic recordings of mosquitoes tracked continuously in free flight. We present 20 hours of audio recordings that we have expertly labelled and tagged precisely in time. Significantly, 18 hours of recordings contain annotations from 36 different species. Mosquitoes are well-known carriers of diseases such as malaria, dengue and yellow fever. Collecting this dataset is motivated by the need to assist applications which utilise mosquito acoustics to conduct surveys to help predict outbreaks and inform intervention policy. The task of detecting mosquitoes from the sound of their wingbeats is challenging due to the difficulty in collecting recordings from realistic scenarios. To address this, as part of the HumBug project, we conducted global experiments to record mosquitoes ranging from those bred in culture cages to mosquitoes captured in the wild. Consequently, the audio recordings vary in signal-to-noise ratio and contain a broad range of indoor and outdoor background environments from Tanzania, Thailand, Kenya, the USA and the UK. In this paper we describe in detail how we collected, labelled and curated the data. The data is provided from a PostgreSQL database, which contains important metadata such as the capture method, age, feeding status and gender of the mosquitoes. Additionally, we provide code to extract features and train Bayesian convolutional neural networks for two key tasks: the identification of mosquitoes from their corresponding background environments, and the classification of detected mosquitoes into species. Our extensive dataset is both challenging to machine learning researchers focusing on acoustic identification, and critical to entomologists, geo-spatial modellers and other domain experts to understand mosquito behaviour, model their distribution, and manage the threat they pose to humans.
updated: Thu Oct 14 2021 14:18:17 GMT+0000 (UTC)
published: Thu Oct 14 2021 14:18:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト