人間の行動を予測する問題は、本質的に不確実なものです。ただし、アクターが達成しようとしている目標の感覚があれば、この不確実性を減らすことができます。ここでは、将来の予測における不確実性を減らす目的で、目標情報を活用する行動予測モデルを提示します。推論中に目標情報や観察されたアクションを所有していないため、視覚的な表現に頼って、アクションと目標の両方に関する情報をカプセル化します。これにより、行動予測のために観察された視覚的特徴のシーケンスに条件付けられた抽象目標と呼ばれる新しい概念を導き出します。変分再帰型ネットワークを使用してパラメーターが推定される分布として抽象的な目標を設計します。次のアクションの複数の候補をサンプリングし、目標の一貫性測定を導入して、抽象的な目標に続く最適な候補を決定します。私たちの方法は、非常に困難な Epic-Kitchens55 (EK55)、EK100、および EGTEA Gaze+ データセットで印象的な結果を取得します。トップ 1 の動詞、トップ 1 の名詞、トップ 1 のアクションの予測精度について、それぞれ +13.69、+11.24、+5.19 の絶対的な改善が得られます。 EK55。同様に、トップ 1 の動詞 (+10.75)、名詞 (+5.84)、およびアクション (+2.87) の予測に設定された目に見えないキッチン (S2) も大幅に改善されました。 EGTEA Gaze+ データセットでも同様の傾向が見られ、名詞、動詞、および行動予測で +9.9、+13.1、および +6.8 の絶対改善が得られています。この論文の提出を通じて、私たちの方法は現在、EK55 および EGTEA Gaze+ における行動予測の新しい最先端技術です。 //github.com/debadityaroy/Abstract_Goal
The problem of anticipating human actions is an inherently uncertain one. However, we can reduce this uncertainty if we have a sense of the goal that the actor is trying to achieve. Here, we present an action anticipation model that leverages goal information for the purpose of reducing the uncertainty in future predictions. Since we do not possess goal information or the observed actions during inference, we resort to visual representation to encapsulate information about both actions and goals. Through this, we derive a novel concept called abstract goal which is conditioned on observed sequences of visual features for action anticipation. We design the abstract goal as a distribution whose parameters are estimated using a variational recurrent network. We sample multiple candidates for the next action and introduce a goal consistency measure to determine the best candidate that follows from the abstract goal. Our method obtains impressive results on the very challenging Epic-Kitchens55 (EK55), EK100, and EGTEA Gaze+ datasets. We obtain absolute improvements of +13.69, +11.24, and +5.19 for Top-1 verb, Top-1 noun, and Top-1 action anticipation accuracy respectively over prior state-of-the-art methods for seen kitchens (S1) of EK55. Similarly, we also obtain significant improvements in the unseen kitchens (S2) set for Top-1 verb (+10.75), noun (+5.84) and action (+2.87) anticipation. Similar trend is observed for EGTEA Gaze+ dataset, where absolute improvement of +9.9, +13.1 and +6.8 is obtained for noun, verb, and action anticipation. It is through the submission of this paper that our method is currently the new state-of-the-art for action anticipation in EK55 and EGTEA Gaze+ https://competitions.codalab.org/competitions/20071#results Code available at https://github.com/debadityaroy/Abstract_Goal