arXiv reaDer
FixMyPose:ポーズ修正キャプションと取得
FixMyPose: Pose Correctional Captioning and Retrieval
理学療法やヨガ/ダンスなどの個人運動への関心は、幸福の傾向とともに高まっています。ただし、このような演習は、専門家の指導なしに実行するのは困難です(これは、すべての研修生への個別のフィードバックをリモートでスケーリングすることは不可能です)。したがって、自動化されたポーズ修正システムがこれまで以上に必要とされており、このニーズに対応するために、FixMyPoseという名前の新しいキャプションデータセットを導入しています。 「現在の」ポーズを「ターゲット」のポーズのように修正する説明を収集します(英語とヒンディー語の両方)。収集された記述には、環境オブジェクトとの自己中心的な関係、類似の参照などの興味深い言語特性があり、空間的な関係の理解と姿勢に関する常識的な知識が必要です。さらに、MLバイアスを回避するために、さまざまな人口統計を持つキャラクター間でバランスを維持します。キャラクターは、いくつかの内部環境(家、オフィスなど)でさまざまな動きを実行します。私たちのデータセットから、ポーズ修正キャプションタスクとその逆ターゲットポーズ検索タスクを紹介します。修正キャプションタスク中に、モデルは現在のポーズ画像からターゲットポーズ画像に移動する方法の説明を生成する必要がありますが、検索タスクでは、モデルは初期ポーズと修正説明を指定して正しいターゲットポーズを選択する必要があります。強力なクロスアテンションベースラインモデル(ユニ/マルチモーダル、RL、多言語)を提示し、他の画像差分データセットで評価した場合、ベースラインが他のモデルと競合することも示します。また、新しいタスク固有のメトリック(オブジェクトの一致、身体の部分の一致、方向の一致)を提案し、より信頼性の高い評価のために人間の評価を実施し、将来の作業を約束する余地を示唆する大きな人間モデルのパフォーマンスギャップを示します。 FixMyPoseデータセットのシミュレーションから実際への転送を検証するために、一連の実際の画像を収集し、これらの画像で有望なパフォーマンスを示します。
Interest in physical therapy and individual exercises such as yoga/dance has increased alongside the well-being trend. However, such exercises are hard to follow without expert guidance (which is impossible to scale for personalized feedback to every trainee remotely). Thus, automated pose correction systems are required more than ever, and we introduce a new captioning dataset named FixMyPose to address this need. We collect descriptions of correcting a "current" pose to look like a "target" pose (in both English and Hindi). The collected descriptions have interesting linguistic properties such as egocentric relations to environment objects, analogous references, etc., requiring an understanding of spatial relations and commonsense knowledge about postures. Further, to avoid ML biases, we maintain a balance across characters with diverse demographics, who perform a variety of movements in several interior environments (e.g., homes, offices). From our dataset, we introduce the pose-correctional-captioning task and its reverse target-pose-retrieval task. During the correctional-captioning task, models must generate descriptions of how to move from the current to target pose image, whereas in the retrieval task, models should select the correct target pose given the initial pose and correctional description. We present strong cross-attention baseline models (uni/multimodal, RL, multilingual) and also show that our baselines are competitive with other models when evaluated on other image-difference datasets. We also propose new task-specific metrics (object-match, body-part-match, direction-match) and conduct human evaluation for more reliable evaluation, and we demonstrate a large human-model performance gap suggesting room for promising future work. To verify the sim-to-real transfer of our FixMyPose dataset, we collect a set of real images and show promising performance on these images.
updated: Sun Apr 04 2021 21:45:44 GMT+0000 (UTC)
published: Sun Apr 04 2021 21:45:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト