arXiv reaDer
イベントガイド付きビデオ超解像のための時空間暗黙的ニューラル表現の学習
Learning Spatial-Temporal Implicit Neural Representations for Event-Guided Video Super-Resolution
イベント カメラは、強度の変化を非同期に感知し、ダイナミック レンジが大きく遅延の少ないイベント ストリームを生成します。これは、挑戦的なビデオ超解像 (VSR) タスクを導くためにイベントを利用する研究努力に影響を与えました。この論文では、イベントの高い時間分解能特性を利用して、ランダムなスケールで VSR を達成するという新しい問題に対処する最初の試みを行います。これは、VSR をガイドする際にイベントの時空間情報を表現することの難しさによって妨げられています。この目的のために、統一されたフレームワークでイベントの時空間補間を VSR に組み込む新しいフレームワークを提案します。私たちの重要なアイデアは、照会された時空間座標から暗黙的なニューラル表現を学習し、RGB フレームとイベントの両方から特徴を学習することです。私たちの方法には3つの部分があります。具体的には、時空間融合 (STF) モジュールは、最初にイベントと RGB フレームから 3D 機能を学習します。次に、Temporal Filter (TF) モジュールは、クエリされたタイムスタンプに近いイベントからより明示的なモーション情報をアンロックし、2D フィーチャを生成します。最後に、SpatialTemporal Implicit Representation (STIR) モジュールは、これら 2 つのモジュールの出力から任意の解像度で SR フレームを復元します。さらに、空間的に整列されたイベントと RGB フレームを含む現実世界のデータセットを収集します。広範な実験により、我々の方法が先行技術を大幅に上回り、例えば6.5などのランダムなスケールでVSRを達成することが示されています。コードとデータセットは https://vlis2022.github.io/cvpr23/egvsr で入手できます。
Event cameras sense the intensity changes asynchronously and produce event streams with high dynamic range and low latency. This has inspired research endeavors utilizing events to guide the challenging video superresolution (VSR) task. In this paper, we make the first attempt to address a novel problem of achieving VSR at random scales by taking advantages of the high temporal resolution property of events. This is hampered by the difficulties of representing the spatial-temporal information of events when guiding VSR. To this end, we propose a novel framework that incorporates the spatial-temporal interpolation of events to VSR in a unified framework. Our key idea is to learn implicit neural representations from queried spatial-temporal coordinates and features from both RGB frames and events. Our method contains three parts. Specifically, the Spatial-Temporal Fusion (STF) module first learns the 3D features from events and RGB frames. Then, the Temporal Filter (TF) module unlocks more explicit motion information from the events near the queried timestamp and generates the 2D features. Lastly, the SpatialTemporal Implicit Representation (STIR) module recovers the SR frame in arbitrary resolutions from the outputs of these two modules. In addition, we collect a real-world dataset with spatially aligned events and RGB frames. Extensive experiments show that our method significantly surpasses the prior-arts and achieves VSR with random scales, e.g., 6.5. Code and dataset are available at https: //vlis2022.github.io/cvpr23/egvsr.
updated: Wed Mar 29 2023 01:59:37 GMT+0000 (UTC)
published: Fri Mar 24 2023 02:42:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト