近年、視覚的現実や拡張現実などのリアルタイム アプリケーションでの手の再構築が大きな成功を収めていますが、効率的なトランスフォーマーを介した両手の再構築との相互作用は未踏のままです。この論文では、軽量アテンション ハンド (LWA-HAND) と呼ばれる手法を提案し、単一の RGB 画像からロー フロップのハンドを再構築します。効率的なアテンション アーキテクチャにおけるオクルージョンと相互作用の問題を解決するために、この論文では 3 つのモバイル アテンション モジュールを提案します。最初のモジュールは、ローカル オクルージョン表現とグローバル イメージ パッチ表現の両方を粗から細かい方法で抽出する軽量の特徴アテンション モジュールです。 2 番目のモジュールは、クロス イメージとグラフ ブリッジ モジュールで、イメージ コンテキストと手の頂点を融合します。 3 番目のモジュールは、線形の複雑さで 2 つの手の交差注意に要素単位の操作を使用する軽量の交差注意メカニズムです。結果として得られるモデルは、最新のモデルと比較して、InterHand2.6M ベンチマークで同等のパフォーマンスを達成します。同時に、フロップを 0.47GFlops に減らしますが、最先端のモデルでは 10GFlops から 20GFlops の間で重い計算が行われます。
Recent years have witnessed great success for hand reconstruction in real-time applications such as visual reality and augmented reality while interacting with two-hand reconstruction through efficient transformers is left unexplored. In this paper, we propose a method called lightweight attention hand (LWA-HAND) to reconstruct hands in low flops from a single RGB image. To solve the occlusion and interaction problem in efficient attention architectures, we propose three mobile attention modules in this paper. The first module is a lightweight feature attention module that extracts both local occlusion representation and global image patch representation in a coarse-to-fine manner. The second module is a cross image and graph bridge module which fuses image context and hand vertex. The third module is a lightweight cross-attention mechanism that uses element-wise operation for the cross-attention of two hands in linear complexity. The resulting model achieves comparable performance on the InterHand2.6M benchmark in comparison with the state-of-the-art models. Simultaneously, it reduces the flops to 0.47GFlops while the state-of-the-art models have heavy computations between 10GFlops and 20GFlops.