arXiv reaDer
TORE: Transformer を使用した効率的なヒューマン メッシュ リカバリのためのトークン削減
TORE: Token Reduction for Efficient Human Mesh Recovery with Transformer
このホワイト ペーパーでは、単眼画像からの Transformer ベースのヒューマン メッシュ リカバリのための一連の効果的な TOken REduction (TORE) 戦略を紹介します。現在の SOTA パフォーマンスは、Transformer ベースの構造によって実現されています。ただし、トークンの冗長性に起因するモデルの複雑さと計算コストの高さに悩まされています。 2 つの重要な側面、つまり 3D ジオメトリ構造と 2D 画像機能に基づいてトークン削減戦略を提案します。ここでは、ボディ構造から事前確率を使用してメッシュ ジオメトリを階層的に回復し、トークン クラスタリングを実行して、より少ないがより識別可能な画像機能トークンを Transformer に渡します。 .その結果、私たちの方法は、Transformer での高度に複雑な相互作用に関与するトークンの数を大幅に削減し、大幅に削減された計算コストで形状復元の競争力のある精度を達成します。提案された方法を検証し、ハンドメッシュ回復に関する方法の一般化可能性をさらに実証するために、幅広いベンチマークにわたって広範な実験を行います。私たちのコードは、論文が公開されると公開されます。
In this paper, we introduce a set of effective TOken REduction (TORE) strategies for Transformer-based Human Mesh Recovery from monocular images. Current SOTA performance is achieved by Transformer-based structures. However, they suffer from high model complexity and computation cost caused by redundant tokens. We propose token reduction strategies based on two important aspects, i.e., the 3D geometry structure and 2D image feature, where we hierarchically recover the mesh geometry with priors from body structure and conduct token clustering to pass fewer but more discriminative image feature tokens to the Transformer. As a result, our method vastly reduces the number of tokens involved in high-complexity interactions in the Transformer, achieving competitive accuracy of shape recovery at a significantly reduced computational cost. We conduct extensive experiments across a wide range of benchmarks to validate the proposed method and further demonstrate the generalizability of our method on hand mesh recovery. Our code will be publicly available once the paper is published.
updated: Sat Nov 19 2022 14:06:58 GMT+0000 (UTC)
published: Sat Nov 19 2022 14:06:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト