arXiv reaDer
コンピュータービジョンを使用したバーチャルピアノ
Virtual Piano using Computer Vision
  この研究では、ピアノの演奏は視覚情報のみに基づいて分析されています。キーボードと特定のキーの場所を見つけるために、ハフ変換やバイナリしきい値処理などのコンピュータービジョンアルゴリズムが適用されています。同時に、特定のキーが押されているかどうか、および視覚情報のみに基づいてキーが押されている強さを見つけるために、畳み込みニューラルネットワーク(CNN)も利用されています。特に強度を検出するために、空間的、時間的CNNモデルを利用する新しい方法が考案されました。初期の融合技術は、特に手の動きを分析するために一時的なCNNアーキテクチャに適用されます。また、各モデルをトレーニングするための新しいデータセットを作成します。特に、押されたキーの強度を見つける場合、ビデオフレームとそのオプティカルフロー画像の両方を使用して、効果を見つけるためにモデルをトレーニングします。
In this research, Piano performances have been analyzed only based on visual information. Computer vision algorithms, e.g., Hough transform and binary thresholding, have been applied to find where the keyboard and specific keys are located. At the same time, Convolutional Neural Networks(CNNs) has been also utilized to find whether specific keys are pressed or not, and how much intensity the keys are pressed only based on visual information. Especially for detecting intensity, a new method of utilizing spatial, temporal CNNs model is devised. Early fusion technique is especially applied in temporal CNNs architecture to analyze hand movement. We also make a new dataset for training each model. Especially when finding an intensity of a pressed key, both of video frames and their optical flow images are used to train models to find effectiveness.
updated: Mon Oct 28 2019 10:36:30 GMT+0000 (UTC)
published: Mon Oct 28 2019 10:36:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト