arXiv reaDer
屋外の視覚と言語のナビゲーションのためのマルチモーダルテキストスタイル転送
Multimodal Text Style Transfer for Outdoor Vision-and-Language Navigation
自然言語処理(NLP)で最も難しいトピックの1つは、視覚に基づいた言語の理解と推論です。屋外の視覚と言語のナビゲーション(VLN)は、エージェントが自然言語の指示に従い、実際の都市環境をナビゲートするタスクです。複雑な都市のシーンを説明する人間が注釈を付けた指示がないため、屋外VLNは解決が難しい課題のままです。このホワイトペーパーでは、マルチモーダルテキストスタイル転送(MTST)学習アプローチを紹介し、外部のマルチモーダルリソースを活用して、屋外ナビゲーションタスクでのデータ不足を軽減します。まず、Google Maps APIによって生成された命令のスタイルを転送することでナビゲーションデータを充実させ、次に拡張された外部屋外ナビゲーションデータセットを使用してナビゲーターを事前トレーニングします。実験結果は、MTST学習アプローチがモデルにとらわれず、MTSTアプローチが屋外VLNタスクのベースラインモデルを大幅に上回り、テストセットでのタスク完了率を8.7%改善することを示しています。
One of the most challenging topics in Natural Language Processing (NLP) is visually-grounded language understanding and reasoning. Outdoor vision-and-language navigation (VLN) is such a task where an agent follows natural language instructions and navigates a real-life urban environment. Due to the lack of human-annotated instructions that illustrate intricate urban scenes, outdoor VLN remains a challenging task to solve. This paper introduces a Multimodal Text Style Transfer (MTST) learning approach and leverages external multimodal resources to mitigate data scarcity in outdoor navigation tasks. We first enrich the navigation data by transferring the style of the instructions generated by Google Maps API, then pre-train the navigator with the augmented external outdoor navigation dataset. Experimental results show that our MTST learning approach is model-agnostic, and our MTST approach significantly outperforms the baseline models on the outdoor VLN task, improving task completion rate by 8.7% relatively on the test set.
updated: Thu Feb 04 2021 04:48:23 GMT+0000 (UTC)
published: Wed Jul 01 2020 04:29:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト