arXiv reaDer
視覚と言語のナビゲーションモデルの潜在的なパフォーマンスを探る:スナップショットアンサンブル法
Explore the Potential Performance of Vision-and-Language Navigation Model: a Snapshot Ensemble Method
Vision-and-Language Navigation(VLN)は、人工知能の分野での挑戦的なタスクです。深いビジョンと言語モデルの飛躍的進歩に起因して、過去数年間でこのタスクは大幅に進歩しましたが、人間だけでなく一般化できるVLNモデルを構築することは依然として困難です。この論文では、VLNモデルを改善するための新しい視点を提供します。同じVLNモデルのスナップショットは、成功率が比較的同じであっても動作が大幅に異なるという発見に基づいて、複数のスナップショット間の予測を活用するスナップショットベースのアンサンブルソリューションを提案します。既存の最先端(SOTA)モデル\ circlearrowrightBERTのスナップショットと過去のアクションを意識した変更に基づいて構築された、提案されたアンサンブルは、ナビゲーションエラー(NE)と成功のR2Rデータセットチャレンジで新しいSOTAパフォーマンスを実現します。パス長(SPL)で重み付けされます。
Vision-and-Language Navigation (VLN) is a challenging task in the field of artificial intelligence. Although massive progress has been made in this task over the past few years attributed to breakthroughs in deep vision and language models, it remains tough to build VLN models that can generalize as well as humans. In this paper, we provide a new perspective to improve VLN models. Based on our discovery that snapshots of the same VLN model behave significantly differently even when their success rates are relatively the same, we propose a snapshot-based ensemble solution that leverages predictions among multiple snapshots. Constructed on the snapshots of the existing state-of-the-art (SOTA) model \circlearrowrightBERT and our past-action-aware modification, our proposed ensemble achieves the new SOTA performance in the R2R dataset challenge in Navigation Error (NE) and Success weighted by Path Length (SPL).
updated: Sun Nov 28 2021 23:07:48 GMT+0000 (UTC)
published: Sun Nov 28 2021 23:07:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト