DoReMi: First glance at a universal OMR dataset
光学音楽認識(OMR)の主な課題は、書かれた音楽の性質、その複雑さ、および適切なデータ表現を見つけることの難しさにあります。このホワイトペーパーでは、これらの課題に対処するOMRデータセットであるDoReMiと、その有用性を評価するためのベースラインオブジェクト検出モデルについて最初に説明します。既存のデータがより広範な研究を満たさないことが多いことを考えると、研究者は一連の小さな段階の後にOMRにアプローチすることがよくあります。より多くのメタデータを提示することにより、この傾向を変える可能性を検討します。私たちのアプローチは、既存の研究を補完します。したがって、DoReMiを使用すると、DeepScoresとMUSCIMA ++の2つの既存のデータセットとの調和が可能になります。 DoReMiは、楽譜作成ソフトウェアを使用して生成され、OMR研究に役立つメタデータを伴う6400を超える印刷された楽譜画像が含まれています。私たちのデータセットは、OMRメタデータ、MIDI、MEI、MusicXML、PNGファイルを提供し、それぞれがOMRのさまざまな段階を支援します。データの半分を使用して、オブジェクト検出で64%の平均平均精度(mAP)を取得します。さらなる作業には、カスタムOMRモデルを満たすために作成プロセスを繰り返すことが含まれます。 OMRの主な課題を解決したとは想定していませんが、このデータセットは、最終的にその目標を支援する新しい議論のコースを開きます。
The main challenges of Optical Music Recognition (OMR) come from the nature of written music, its complexity and the difficulty of finding an appropriate data representation. This paper provides a first look at DoReMi, an OMR dataset that addresses these challenges, and a baseline object detection model to assess its utility. Researchers often approach OMR following a set of small stages, given that existing data often do not satisfy broader research. We examine the possibility of changing this tendency by presenting more metadata. Our approach complements existing research; hence DoReMi allows harmonisation with two existing datasets, DeepScores and MUSCIMA++. DoReMi was generated using a music notation software and includes over 6400 printed sheet music images with accompanying metadata useful in OMR research. Our dataset provides OMR metadata, MIDI, MEI, MusicXML and PNG files, each aiding a different stage of OMR. We obtain 64% mean average precision (mAP) in object detection using half of the data. Further work includes re-iterating through the creation process to satisfy custom OMR models. While we do not assume to have solved the main challenges in OMR, this dataset opens a new course of discussions that would ultimately aid that goal.
updated: Fri Jul 16 2021 09:24:58 GMT+0000 (UTC)
published: Fri Jul 16 2021 09:24:58 GMT+0000 (UTC)
