環境と相互作用するエージェントの将来の状態の予測は、自律エージェントが現実の世界で正常に動作するために必要な主要な能力です。潜在変数モデルに基づく構造化シーケンス予測の以前の作業では、潜在変数に事前にユニモーダル標準ガウス分布を課しています。これは強いモデルバイアスを誘発し、将来の状態の分布のマルチモダリティを完全に把握することを困難にします。この作業では、効果的な構造化シーケンス予測のために複雑なマルチモーダル条件付き分布をキャプチャする前に、新規の条件付き正規化フローを使用して条件付きフローバリエーションオートエンコーダー(CF-VAE)を紹介します。さらに、トレーニングを安定させ、後方崩壊を処理して安定したトレーニングを行い、ターゲットデータの分布によりよく適合する2つの新しい正則化スキームを提案します。 3つのマルチモーダル構造化シーケンス予測データセット(MNISTシーケンス、スタンフォードドローン、およびHighD)に対する私たちの実験は、提案された方法がさまざまな評価指標にわたって最先端の結果を取得することを示しています。
Prediction of future states of the environment and interacting agents is a key competence required for autonomous agents to operate successfully in the real world. Prior work for structured sequence prediction based on latent variable models imposes a uni-modal standard Gaussian prior on the latent variables. This induces a strong model bias which makes it challenging to fully capture the multi-modality of the distribution of the future states. In this work, we introduce Conditional Flow Variational Autoencoders (CF-VAE) using our novel conditional normalizing flow based prior to capture complex multi-modal conditional distributions for effective structured sequence prediction. Moreover, we propose two novel regularization schemes which stabilizes training and deals with posterior collapse for stable training and better fit to the target data distribution. Our experiments on three multi-modal structured sequence prediction datasets -- MNIST Sequences, Stanford Drone and HighD -- show that the proposed method obtains state of art results across different evaluation metrics.