arXiv reaDer
Residual Recurrent CRNN for End-to-End Optical Music Recognition on Monophonic Scores
光学音楽認識タスクの課題の1つは、カメラでキャプチャした画像の記号をデジタル音楽表記に変換することです。畳み込みリカレントニューラルネットワークとして開発された以前のエンドツーエンドモデルは、実物大からの十分なコンテキスト情報を探索しておらず、まだ改善の余地があります。残差再帰畳み込みニューラルネットワークのブロックと再帰エンコーダーデコーダーネットワークを組み合わせて、画像に存在する表記に対応するモノフォニック音楽記号のシーケンスをマッピングする革新的なフレームワークを提案します。 Residual Recurrent Convolutionalブロックは、コンテキスト情報を強化するモデルの機能を向上させることができます。実験結果は、CAMERA-PRIMUSと呼ばれる公開されているデータセットに対してベンチマークされます。これは、私たちのアプローチが畳み込みリカレントニューラルネットワークを使用した最先端のエンドツーエンド手法を上回っていることを示しています。
One of the challenges of the Optical Music Recognition task is to transcript the symbols of the camera-captured images into digital music notations. Previous end-to-end model which was developed as a Convolutional Recurrent Neural Network does not explore sufficient contextual information from full scales and there is still a large room for improvement. We propose an innovative framework that combines a block of Residual Recurrent Convolutional Neural Network with a recurrent Encoder-Decoder network to map a sequence of monophonic music symbols corresponding to the notations present in the image. The Residual Recurrent Convolutional block can improve the ability of the model to enrich the context information. The experiment results are benchmarked against a publicly available dataset called CAMERA-PRIMUS, which demonstrates that our approach surpass the state-of-the-art end-to-end method using Convolutional Recurrent Neural Network.
updated: Wed Aug 04 2021 13:18:13 GMT+0000 (UTC)
published: Mon Oct 26 2020 08:39:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト