パノラマ ビデオを探索する際に人間のスキャンパスを予測することは、球状のジオメトリと入力のマルチモダリティ、および出力の固有の不確実性と多様性のため、困難な作業です。以前の方法のほとんどは、これらの特性を完全に処理することができず、エラーが発生しやすくなっています。この論文では、非可逆データ圧縮の原理に基づいたスキャンパス予測の簡単な新しい基準を提示します。この基準は、トレーニング セット内の量子化されたスキャンパスの予想されるコード長を最小化することを提案します。これは、最尤法による離散条件付き確率モデルのフィッティングに対応します。具体的には、確率モデルは 2 つのモダリティに基づいて条件付けられます: 変形を減らした視覚入力としてのビューポート シーケンスと、位置合わせされたパス入力としてそれぞれのビューポートに投影された一連の相対的な履歴スキャンパスです。確率モデルは、離散化されたガウス混合モデルの積によってパラメーター化され、さまざまなユーザーからのスキャンパスの不確実性と多様性を捉えます。最も重要なことは、確率モデルのトレーニングは、模倣学習のための「グラウンド トゥルース」スキャンパスの仕様に依存しないことです。また、比例積分微分 (PID) コントローラー ベースのサンプラーを導入して、学習した確率モデルから現実的な人間のようなスキャンパスを生成します。実験結果は、私たちの方法が、幅広い予測範囲にわたって、予測精度 (想定された「グラウンド トゥルース」と比較することによる) および知覚リアリズム (機械識別による) の点で、より優れた定量的スキャンパス結果を一貫して生成することを示しています。さらに、正式な心理物理実験による知覚リアリズムの改善と、いくつかの目に見えないパノラマビデオデータセットの一般化の改善を検証します。
Predicting human scanpaths when exploring panoramic videos is a challenging task due to the spherical geometry and the multimodality of the input, and the inherent uncertainty and diversity of the output. Most previous methods fail to give a complete treatment of these characteristics, and thus are prone to errors. In this paper, we present a simple new criterion for scanpath prediction based on principles from lossy data compression. This criterion suggests minimizing the expected code length of quantized scanpaths in a training set, which corresponds to fitting a discrete conditional probability model via maximum likelihood. Specifically, the probability model is conditioned on two modalities: a viewport sequence as the deformation-reduced visual input and a set of relative historical scanpaths projected onto respective viewports as the aligned path input. The probability model is parameterized by a product of discretized Gaussian mixture models to capture the uncertainty and the diversity of scanpaths from different users. Most importantly, the training of the probability model does not rely on the specification of "ground-truth" scanpaths for imitation learning. We also introduce a proportional-integral-derivative (PID) controller-based sampler to generate realistic human-like scanpaths from the learned probability model. Experimental results demonstrate that our method consistently produces better quantitative scanpath results in terms of prediction accuracy (by comparing to the assumed "ground-truths") and perceptual realism (through machine discrimination) over a wide range of prediction horizons. We additionally verify the perceptual realism improvement via a formal psychophysical experiment and the generalization improvement on several unseen panoramic video datasets.