arXiv reaDer
タッチダウン:Visual Street Environmentでの自然言語ナビゲーションと空間推論
Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments
 ナビゲーションと空間推論タスクを通じて言語とビジョンについて共同推論の問題を研究します。タッチダウンタスクとデータセットを紹介します。エージェントは最初に実際の視覚的な都市環境でナビゲーションの指示に従い、次に自然言語で記述された場所を特定して、目的の位置にある隠れたオブジェクトを見つけます。このデータには、デモと組み合わせた英語の説明と空間説明の9,326個の例が含まれています。経験的分析は、データが既存の方法に対する未解決の課題を提示することを示し、定性的言語分析は、データが、関連するリソースと比較して空間的推論のより豊富な使用を表示することを示しています。
We study the problem of jointly reasoning about language and vision through a navigation and spatial reasoning task. We introduce the Touchdown task and dataset, where an agent must first follow navigation instructions in a real-life visual urban environment, and then identify a location described in natural language to find a hidden object at the goal position. The data contains 9,326 examples of English instructions and spatial descriptions paired with demonstrations. Empirical analysis shows the data presents an open challenge to existing methods, and qualitative linguistic analysis shows that the data displays richer use of spatial reasoning compared to related resources.
updated: Sat May 16 2020 23:36:36 GMT+0000 (UTC)
published: Thu Nov 29 2018 18:06:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト