arXiv reaDer
セマンティック予測:認識と予測のどちらを最初にすべきか?
Semantic Prediction: Which One Should Come First, Recognition or Prediction?
ビデオ予測の最終的な目標は、以前のフレームが与えられた場合の将来のピクセル値を予測することではありません。むしろ、ビデオ予測の最終目標は、ダウンストリームタスク用に自己監視方式で利用可能なラベルなしビデオデータの膨大な量から貴重な内部表現を発見することです。主要なダウンストリームタスクの1つは、シーンのセマンティック構成を解釈し、それを意思決定に使用することです。たとえば、人間の動きを予測することで、オブザーバーは人間の活動を予測し、共有ワークスペースで共同作業を行うことができます。事前にトレーニングされたビデオ予測と事前にトレーニングされたセマンティック抽出モデルを考えると、同じ結果を達成するための2つの主な方法があります。最初に予測を適用してからセマンティクスを抽出するか、最初にセマンティクスを抽出してから予測することができます。ビデオ予測モデルとしてLocalFrequency Domain Transformer Network(LFDTN)を使用し、合成データセットと実際のデータセットのセマンティック抽出モデルとしてU-Netを使用して、これらの構成を調査します。
The ultimate goal of video prediction is not forecasting future pixel-values given some previous frames. Rather, the end goal of video prediction is to discover valuable internal representations from the vast amount of available unlabeled video data in a self-supervised fashion for downstream tasks. One of the primary downstream tasks is interpreting the scene's semantic composition and using it for decision-making. For example, by predicting human movements, an observer can anticipate human activities and collaborate in a shared workspace. There are two main ways to achieve the same outcome, given a pre-trained video prediction and pre-trained semantic extraction model; one can first apply predictions and then extract semantics or first extract semantics and then predict. We investigate these configurations using the Local Frequency Domain Transformer Network (LFDTN) as the video prediction model and U-Net as the semantic extraction model on synthetic and real datasets.
updated: Wed Oct 06 2021 15:01:05 GMT+0000 (UTC)
published: Wed Oct 06 2021 15:01:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト