ビデオ修復は、与えられた時空間の穴をリアルな外観で埋めることを目的としていますが、深層学習のアプローチが盛んな場合でも、依然として困難な作業です。最近の作品は、有望なTransformerアーキテクチャをディープビデオインペインティングに導入し、より優れたパフォーマンスを実現しています。ただし、それでもぼやけたテクスチャの合成と莫大な計算コストに悩まされています。この目的に向けて、ビデオの修復を非常に効率的に改善するための新しい分離時空間トランスフォーマー(DSTT)を提案します。私たちが提案するDSTTは、時空間的注意を学習するタスクを2つのサブタスクに解きほぐします。1つは同じ空間位置にある異なるフレーム上の時間的オブジェクトの動きに参加するためのもので、これは時間的に分離されたTransformerブロックによって実現されます。すべての空間位置の同じフレーム上の背景テクスチャ。これは、空間的に分離されたTransformerブロックによって実現されます。このような2つのブロックの織り交ぜられたスタックにより、提案されたモデルは背景テクスチャと移動するオブジェクトにより正確に対応します。したがって、対応されたもっともらしく時間的にコヒーレントな外観を伝播して穴を埋めることができます。さらに、トランスフォーマーブロックのスタックの前に階層エンコーダーが採用され、マルチレベルのローカル空間構造を維持する堅牢で階層的な機能を学習し、より代表的なトークンベクトルを実現します。これら2つの新しいデザインのシームレスな組み合わせにより、より優れた時空間アテンションスキームが形成され、提案されたモデルは、最先端のビデオ修復アプローチよりも優れたパフォーマンスを実現し、効率が大幅に向上します。
Video inpainting aims to fill the given spatiotemporal holes with realistic appearance but is still a challenging task even with prosperous deep learning approaches. Recent works introduce the promising Transformer architecture into deep video inpainting and achieve better performance. However, it still suffers from synthesizing blurry texture as well as huge computational cost. Towards this end, we propose a novel Decoupled Spatial-Temporal Transformer (DSTT) for improving video inpainting with exceptional efficiency. Our proposed DSTT disentangles the task of learning spatial-temporal attention into 2 sub-tasks: one is for attending temporal object movements on different frames at same spatial locations, which is achieved by temporally-decoupled Transformer block, and the other is for attending similar background textures on same frame of all spatial positions, which is achieved by spatially-decoupled Transformer block. The interweaving stack of such two blocks makes our proposed model attend background textures and moving objects more precisely, and thus the attended plausible and temporally-coherent appearance can be propagated to fill the holes. In addition, a hierarchical encoder is adopted before the stack of Transformer blocks, for learning robust and hierarchical features that maintain multi-level local spatial structure, resulting in the more representative token vectors. Seamless combination of these two novel designs forms a better spatial-temporal attention scheme and our proposed model achieves better performance than state-of-the-art video inpainting approaches with significant boosted efficiency.