私たちは、ビデオ補完のためのオニオンピールネットワークを提案します。一連の参照画像とターゲット画像に穴がある場合、ネットワークは参照画像の内容を参照して穴を埋めます。オニオンピールネットワークは、穴の境界から徐々に穴を埋めて、不足している領域のより豊富なコンテキスト情報をステップごとに活用できるようにします。十分な回数の繰り返しがあれば、大きな穴でも正常に修復できます。参照画像に表示される欠落情報に対応するために、ターゲット内の穴境界ピクセルと参照内の非穴ピクセル間の非類似性を類似性を計算する非対称注意ブロックを提案します。アテンションブロックを使用すると、ネットワークの空間的時間的ウィンドウサイズを無制限にし、穴をグローバルに一貫したコンテンツで埋めることができます。さらに、私たちのフレームワークは、従来の方法では困難な修正なしで参照画像によって導かれる画像補完に適用できます。私たちの方法が現実的なテストケースで視覚的に心地よい画像とビデオの修復結果を生成することを検証します。
We propose the onion-peel networks for video completion. Given a set of reference images and a target image with holes, our network fills the hole by referring the contents in the reference images. Our onion-peel network progressively fills the hole from the hole boundary enabling it to exploit richer contextual information for the missing regions every step. Given a sufficient number of recurrences, even a large hole can be inpainted successfully. To attend to the missing information visible in the reference images, we propose an asymmetric attention block that computes similarities between the hole boundary pixels in the target and the non-hole pixels in the references in a non-local manner. With our attention block, our network can have an unlimited spatial-temporal window size and fill the holes with globally coherent contents. In addition, our framework is applicable to the image completion guided by the reference images without any modification, which is difficult to do with the previous methods. We validate that our method produces visually pleasing image and video inpainting results in realistic test cases.