人間のような物理的推論能力を備えたロボットに寄付することは、依然として困難です。既存の方法は時空間関係をしばしば無視し、関係誘導バイアスを組み込むグラフニューラルネットワーク(GNN)を使用することで、関係を活用する方向に学習プロセスをシフトできると主張します。この作業では、乱雑で不規則な形状のオブジェクトを含む視覚的観察から、シミュレートされた操作タスクのアクション条件付きフォワードダイナミクスモデルを学習します。 2つのGNNアプローチを調査し、新規で増加するオブジェクトを含むシナリオに一般化する能力を経験的に評価します。最初のグラフネットワーク(GN)ベースのアプローチでは、明示的に定義されたエッジ属性を考慮し、将来の状態を予測するために修正した自動エンコーダーベースラインを一貫して下回るだけでなく、さまざまなエッジ属性が予測に大きく影響する方法を示しています。したがって、明示的に定義されたエッジ属性に依存しない自動予測を開発します。ベースラインおよびGNベースのモデルよりも優れています。全体的に、私たちの結果は、タスク表現に対するGNNベースのアプローチの感度、リレーショナル帰納的バイアスの有効性、およびこれらの決定を人間のデザイナーに任せるものよりも関係について暗黙のうちに推論する軽量アプローチの選択を提唱しています。
Endowing robots with human-like physical reasoning abilities remains challenging. We argue that existing methods often disregard spatio-temporal relations and by using Graph Neural Networks (GNNs) that incorporate a relational inductive bias, we can shift the learning process towards exploiting relations. In this work, we learn action-conditional forward dynamics models of a simulated manipulation task from visual observations involving cluttered and irregularly shaped objects. We investigate two GNN approaches and empirically assess their capability to generalize to scenarios with novel and an increasing number of objects. The first, Graph Networks (GN) based approach, considers explicitly defined edge attributes and not only does it consistently underperform an auto-encoder baseline that we modified to predict future states, our results indicate how different edge attributes can significantly influence the predictions. Consequently, we develop the Auto-Predictor that does not rely on explicitly defined edge attributes. It outperforms the baseline and the GN-based models. Overall, our results show the sensitivity of GNN-based approaches to the task representation, the efficacy of relational inductive biases and advocate choosing lightweight approaches that implicitly reason about relations over ones that leave these decisions to human designers.