arXiv reaDer
音楽パフォーマンスのビデオを分析するためのディープニューラルネットワークアプローチ
Deep Neural Network approaches for Analysing Videos of Music Performances
このペーパーでは、3D畳み込みニューラルネットワーク(CNN)を使用して、音楽パフォーマンスビデオのジェスチャのラベリングプロセスを自動化するためのフレームワークを紹介します。このアイデアは以前の研究で提案されましたが、この論文ではいくつかの新規性を紹介します。(i)クラスの不均衡の課題を克服し、バッチバランシングアプローチとジェスチャの時空間表現によって共存するジェスチャの学習を可能にする新しい方法を示します。 (ii)ビデオ録画された楽曲の演奏(ギター演奏)中に生成されるジェスチャーの7つおよび18のカテゴリーについて詳細な調査を実行します。 (iii)オーディオ機能を使用する可能性を調査します。 (iv)分析を複数のビデオに拡張します。新しい方法は、前の作業と比較して、ジェスチャ識別のパフォーマンスを12%大幅に向上させます(この調査では51%、前の作業では39%)。 7つのスーパークラス(72%)、18のジェスチャ/クラスのアンサンブル、および追加のビデオ(75%)で、提案されたメソッドを正常に検証しました。
This paper presents a framework to automate the labelling process for gestures in musical performance videos with a 3D Convolutional Neural Network (CNN). While this idea was proposed in a previous study, this paper introduces several novelties: (i) Presents a novel method to overcome the class imbalance challenge and make learning possible for co-existent gestures by batch balancing approach and spatial-temporal representations of gestures. (ii) Performs a detailed study on 7 and 18 categories of gestures generated during the performance (guitar play) of musical pieces that have been video-recorded. (iii) Investigates the possibility to use audio features. (iv) Extends the analysis to multiple videos. The novel methods significantly improve the performance of gesture identification by 12 %, when compared to the previous work (51 % in this study over 39 % in previous work). We successfully validate the proposed methods on 7 super classes (72 %), an ensemble of the 18 gestures/classes, and additional videos (75 %).
updated: Tue May 24 2022 08:42:50 GMT+0000 (UTC)
published: Thu May 05 2022 09:04:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト