最近の研究の多くは画像修復 (IR) 分野で進歩を遂げていますが、パラメーターの数が多すぎるという問題が発生することがよくあります。もう 1 つの問題は、ほとんどの Transformer ベースの IR メソッドがローカルまたはグローバルのいずれかの特徴のみに焦点を当てているため、限られた受容野やパラメーター不足の問題につながることです。これらの問題に対処するために、軽量の IR ネットワークである Reciprocal Attendant Mixing Transformer (RAMiT) を提案します。これは、私たちが提案した次元相互注意混合トランス (D-RAMiT) ブロックを採用しており、異なる数のマルチヘッドと並行して二次元 (空間およびチャネル) 自己注意を計算します。二次元の注意は、相手の欠点を補うために互いに助け合って、混合されます。さらに、効率的な階層構造を維持しながらピクセルレベルの情報損失を補償し、セマンティック情報を利用する階層的相反的注意混合 (H-RAMi) 層を導入します。さらに、MobileNet V1 と V2 を再検討して修正し、提案したコンポーネントに効率的な畳み込みを付加します。実験結果は、RAMiT が超解像度、カラーノイズ除去、グレースケールノイズ除去、低照度強調、ディレインを含む複数の軽量 IR タスクで最先端のパフォーマンスを達成することを示しています。コードは https://github.com/rami0205/RAMiT で入手できます。
Although many recent works have made advancements in the image restoration (IR) field, they often suffer from an excessive number of parameters. Another issue is that most Transformer-based IR methods focus only on either local or global features, leading to limited receptive fields or deficient parameter issues. To address these problems, we propose a lightweight IR network, Reciprocal Attention Mixing Transformer (RAMiT). It employs our proposed dimensional reciprocal attention mixing Transformer (D-RAMiT) blocks, which compute bi-dimensional (spatial and channel) self-attentions in parallel with different numbers of multi-heads. The bi-dimensional attentions help each other to complement their counterpart's drawbacks and are then mixed. Additionally, we introduce a hierarchical reciprocal attention mixing (H-RAMi) layer that compensates for pixel-level information losses and utilizes semantic information while maintaining an efficient hierarchical structure. Furthermore, we revisit and modify MobileNet V1 and V2 to attach efficient convolutions to our proposed components. The experimental results demonstrate that RAMiT achieves state-of-the-art performance on multiple lightweight IR tasks, including super-resolution, color denoising, grayscale denoising, low-light enhancement, and deraining. Codes are available at https://github.com/rami0205/RAMiT.