Action Anticipation for Collaborative Environments: The Impact of Contextual Information and Uncertainty-Based Prediction
コラボレーション環境で人間と対話するには、マシンが将来のイベントを予測(つまり、予測)し、タイムリーにアクションを実行できる必要があります。しかし、人間の手足の動きを観察するだけでは、その動作を明確に予測するには不十分な場合があります。この作業では、時間の経過に伴う2つの追加の情報源(つまり、コンテキスト)、視線、動き、オブジェクト情報を検討し、これらの追加のコンテキストキューがアクション予測パフォーマンスを向上させる方法を研究します。アクション予測は分類タスクとして扱われます。モデルは利用可能な情報を入力として受け取り、最も可能性の高いアクションを予測します。各予測についての不確実性を行動予測のオンライン意思決定基準として使用することを提案します。不確実性は、時間ベースのニューラルネットワークアーキテクチャに適用される確率的プロセスとしてモデル化されます。これにより、従来のクラス尤度(つまり、決定論的)基準が向上します。このペーパーの主な貢献は4つあります。(i)あいまいさが多い状況でもアクションを予測するために使用できる、新規で効果的な意思決定基準を提案します。 (ii)Acticipateコラボレーションデータセットを使用すると、アクション予測タスクの以前の結果よりも優れた深いアーキテクチャを提案します。 (iii)同様の行動の解釈を明確にするために文脈情報が重要であることを示す。 (iv)また、アクション予測モデルを評価するために簡単に使用できる3つの既存のパフォーマンスメトリックの正式な説明も提供します。Acticipateデータセットの結果は、コンテキスト予測の重要性とアクション予測の不確実性基準を示しています。観測値の平均25%のみを使用して、予測タスクで平均精度98.75%を達成します。
To interact with humans in collaborative environments, machines need to be able to predict (i.e., anticipate) future events, and execute actions in a timely manner. However, the observation of the human limb movements may not be sufficient to anticipate their actions unambiguously. In this work, we consider two additional sources of information (i.e., context) over time, gaze, movement and object information, and study how these additional contextual cues improve the action anticipation performance. We address action anticipation as a classification task, where the model takes the available information as the input and predicts the most likely action. We propose to use the uncertainty about each prediction as an online decision-making criterion for action anticipation. Uncertainty is modeled as a stochastic process applied to a time-based neural network architecture, which improves the conventional class-likelihood (i.e., deterministic) criterion. The main contributions of this paper are four-fold: (i) We propose a novel and effective decision-making criterion that can be used to anticipate actions even in situations of high ambiguity; (ii) we propose a deep architecture that outperforms previous results in the action anticipation task when using the Acticipate collaborative dataset; (iii) we show that contextual information is important to disambiguate the interpretation of similar actions; and (iv) we also provide a formal description of three existing performance metrics that can be easily used to evaluate action anticipation models.Our results on the Acticipate dataset showed the importance of contextual information and the uncertainty criterion for action anticipation. We achieve an average accuracy of 98.75% in the anticipation task using only an average of 25% of observations.
updated: Thu Jun 18 2020 06:17:03 GMT+0000 (UTC)
published: Tue Oct 01 2019 23:30:08 GMT+0000 (UTC)
