フィギュア スケートの採点は、プレーヤーの技術的な動きと BGM との連携を判断する必要があるため、挑戦的です。ほとんどの学習ベースの方法では、次の 2 つの理由でうまく解決できません。1) フィギュア スケートの各動きは急速に変化するため、従来のフレーム サンプリングを単純に適用すると、特に 3 ~ 5 分のビデオでは多くの貴重な情報が失われます。 2) 以前の方法では、モデルにおける重要な視聴覚関係が考慮されることはめったにありませんでした。これらの理由により、Skating-Mixer という新しいアーキテクチャを導入します。 MLP フレームワークをマルチモーダルな方法に拡張し、設計されたメモリ反復ユニット (MRU) を通じて長期的な表現を効果的に学習します。モデルとは別に、高品質のオーディオビジュアル FS1000 データセットを収集しました。これには、7 つの異なる評価指標を持つ 8 種類の番組に関する 1000 以上のビデオが含まれており、量と多様性の両方で他のデータセットを上回っています。実験では、提案された方法がパブリック Fis-V と FS1000 データセットのすべての主要なメトリックで SOTA を達成することが示されています。さらに、2022 年北京冬季オリンピックでの最近の競技会に我々の方法を適用した分析も含まれており、我々の方法が強力な適用可能性を持っていることを証明しています。
Figure skating scoring is challenging because it requires judging the technical moves of the players as well as their coordination with the background music. Most learning-based methods cannot solve it well for two reasons: 1) each move in figure skating changes quickly, hence simply applying traditional frame sampling will lose a lot of valuable information, especially in 3 to 5 minutes long videos; 2) prior methods rarely considered the critical audio-visual relationship in their models. Due to these reasons, we introduce a novel architecture, named Skating-Mixer. It extends the MLP framework into a multimodal fashion and effectively learns long-term representations through our designed memory recurrent unit (MRU). Aside from the model, we collected a high-quality audio-visual FS1000 dataset, which contains over 1000 videos on 8 types of programs with 7 different rating metrics, overtaking other datasets in both quantity and diversity. Experiments show the proposed method achieves SOTAs over all major metrics on the public Fis-V and our FS1000 dataset. In addition, we include an analysis applying our method to the recent competitions in Beijing 2022 Winter Olympic Games, proving our method has strong applicability.