フィギュアスケートの得点は、プレーヤーの技術的な動きを判断し、身元音楽と調整する必要があるため、難しい作業です。以前の学習ベースの作業では、2つの理由でそれをうまく解決できません:1)フィギュアスケートの各動きはすぐに変化するため、従来のフレームサンプリングを適用するだけでは、特に3〜5分間続くビデオでは、多くの貴重な情報が失われます。長距離表現学習が必要です。 2)以前の方法では、モデルの重要な視聴覚関係をほとんど考慮していませんでした。したがって、Skating-Mixerという名前のマルチモーダルMLPアーキテクチャを紹介します。 MLP-Mixerベースのフレームワークをマルチモーダル方式に拡張し、設計されたメモリリカレントユニット(MRU)を介して長期表現を効果的に学習します。モデルとは別に、高品質のオーディオビジュアルFS1000データセットも収集しました。このデータセットには、7つの異なる評価指標を持つ8種類のプログラムに関する1000を超える動画が含まれており、量と多様性の両方で他のデータセットを上回っています。実験は、提案された方法が、公開されているFis-VおよびFS1000データセットのすべての主要なメトリックに対してSOTAよりも優れていることを示しています。さらに、2022年の北京冬季オリンピックで発生した最近の大会に私たちの方法を適用した分析を含め、私たちの方法が強力な堅牢性を持っていることを証明しています。
Figure skating scoring is a challenging task because it requires judging players' technical moves as well as coordination with the background music. Prior learning-based work cannot solve it well for two reasons: 1) each move in figure skating changes quickly, hence simply applying traditional frame sampling will lose a lot of valuable information, especially in a 3-5 minutes lasting video, so an extremely long-range representation learning is necessary; 2) prior methods rarely considered the critical audio-visual relationship in their models. Thus, we introduce a multimodal MLP architecture, named Skating-Mixer. It extends the MLP-Mixer-based framework into a multimodal fashion and effectively learns long-term representations through our designed memory recurrent unit (MRU). Aside from the model, we also collected a high-quality audio-visual FS1000 dataset, which contains over 1000 videos on 8 types of programs with 7 different rating metrics, overtaking other datasets in both quantity and diversity. Experiments show the proposed method outperforms SOTAs over all major metrics on the public Fis-V and our FS1000 dataset. In addition, we include an analysis applying our method to recent competitions that occurred in Beijing 2022 Winter Olympic Games, proving our method has strong robustness.