arXiv reaDer
Robust Navigation with Language Pretraining and Stochastic Sampling
  視覚言語ナビゲーション(VLN)の課題の中核は、堅牢な命令表現とアクションデコードスキームを構築することです。このホワイトペーパーでは、これらの課題に対処し、最新のパフォーマンスを実現するための2つのシンプルだが非常に効果的な方法を報告します。最初に、大規模な事前学習済み言語モデルを適応させて、以前は見えなかった指示により一般化したテキスト表現を学習します。第二に、トレーニングのエキスパートアクションとテストのサンプルアクションのかなりのギャップを減らす確率的サンプリングスキームを提案します。これにより、エージェントは長いシーケンシャルアクションデコード中に自身の誤りを修正することを学習できます。 2つの手法を組み合わせることで、部屋長ベンチマークで新しい最先端を達成し、パス長メトリックで重み付けされた成功率で以前の最良の結果(47%-> 53%)に対して6%の絶対ゲインを実現します。
Core to the vision-and-language navigation (VLN) challenge is building robust instruction representations and action decoding schemes, which can generalize well to previously unseen instructions and environments. In this paper, we report two simple but highly effective methods to address these challenges and lead to a new state-of-the-art performance. First, we adapt large-scale pretrained language models to learn text representations that generalize better to previously unseen instructions. Second, we propose a stochastic sampling scheme to reduce the considerable gap between the expert actions in training and sampled actions in test, so that the agent can learn to correct its own mistakes during long sequential action decoding. Combining the two techniques, we achieve a new state of the art on the Room-to-Room benchmark with 6% absolute gain over the previous best result (47% -> 53%) on the Success Rate weighted by Path Length metric.
updated: Thu Sep 05 2019 07:31:58 GMT+0000 (UTC)
published: Thu Sep 05 2019 07:31:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト