ビデオなどの一時的な観察には、基礎となるシーンのダイナミクスに関する重要な情報が含まれていますが、重要ではない予測可能な詳細が交互に挿入されています。この問題に対処する1つの方法は、シーケンスで最も有益な瞬間に焦点を当てることです。これらの重要なイベントとその発生時間を発見し、それらを使用して完全なシーケンスを表すことを学習するモデルを提案します。これは、最初にビデオのキーフレームを生成し、次に中間の時間にフレームを生成することで残りのフレームを修復する階層的なKeyframe-Inpainter(KeyIn)モデルを使用して行います。この手順を効率的に学習するために、完全に微分可能な定式化を提案します。 KeyInが、さまざまなダイナミクスとビジュアルプロパティを持ついくつかのデータセットで有益なキーフレームを見つけることを示します。 KeyInは、計画のための他の最近の階層的予測モデルよりも優れています。詳細については、https://sites.google.com/view/keyinにあるプロジェクトのウェブサイトをご覧ください。
Temporal observations such as videos contain essential information about the dynamics of the underlying scene, but they are often interleaved with inessential, predictable details. One way of dealing with this problem is by focusing on the most informative moments in a sequence. We propose a model that learns to discover these important events and the times when they occur and uses them to represent the full sequence. We do so using a hierarchical Keyframe-Inpainter (KeyIn) model that first generates a video's keyframes and then inpaints the rest by generating the frames at the intervening times. We propose a fully differentiable formulation to efficiently learn this procedure. We show that KeyIn finds informative keyframes in several datasets with different dynamics and visual properties. KeyIn outperforms other recent hierarchical predictive models for planning. For more details, please see the project website at https://sites.google.com/view/keyin.