Dynamic Attention Networks for Task Oriented Grounding
  自然言語の指示で指定されたタスクを正常に実行するために、視覚世界で動作する人工エージェントは、指示からその環境の視覚要素に単語、概念、およびアクションをマッピングする必要があります。この関連付けは、タスク指向グラウンディングと呼ばれます。この作業では、ポリシー学習者の状態のロバストな定義を生成できる、テキストと視覚表現の効率的なマルチモーダル融合のための新しい動的アテンションネットワークアーキテクチャを提案します。私たちのモデルは、視覚的およびテキスト領域からの事前知識がないことを前提としており、エンドツーエンドのトレーニングが可能です。観察が絶えず変化する3D視覚世界では、視覚要素への注意は、1回のステップから次のステップへと高度に相関する傾向があります。これを「ダイナミックアテンション」と呼びます。この作業では、動的な注意が基礎の達成に役立ち、ポリシー学習の目標にも役立つことを示します。ほとんどの実用的なロボットアプリケーションは、観測空間が連続している現実の世界で行われるため、私たちのフレームワークは、自然言語によるロボット制御のための汎用マルチモーダルフュージョンユニットとして使用できます。ネットワークの収束速度で、Gated Attention Hadamard積で1D畳み込みを使用することの有効性を示します。 Long Short Term Memory(LSTM)のセル状態は、動的アテンションをモデル化するための自然な選択であり、視覚化によって、生成されたアテンションが人間が環境に集中する傾向に非常に近いことを示します。
In order to successfully perform tasks specified by natural language instructions, an artificial agent operating in a visual world needs to map words, concepts, and actions from the instruction to visual elements in its environment. This association is termed as Task-Oriented Grounding. In this work, we propose a novel Dynamic Attention Network architecture for the efficient multi-modal fusion of text and visual representations which can generate a robust definition of state for the policy learner. Our model assumes no prior knowledge from visual and textual domains and is an end to end trainable. For a 3D visual world where the observation changes continuously, the attention on the visual elements tends to be highly co-related from a one-time step to the next. We term this as "Dynamic Attention". In this work, we show that Dynamic Attention helps in achieving grounding and also aids in the policy learning objective. Since most practical robotic applications take place in the real world where the observation space is continuous, our framework can be used as a generalized multi-modal fusion unit for robotic control through natural language. We show the effectiveness of using 1D convolution over Gated Attention Hadamard product on the rate of convergence of the network. We demonstrate that the cell-state of a Long Short Term Memory (LSTM) is a natural choice for modeling Dynamic Attention and shows through visualization that the generated attention is very close to how humans tend to focus on the environment.
