arXiv reaDer
幼児ガイダンス学習:マルチモーダルAIエージェントに対する臨界期の影響
Toddler-Guidance Learning: Impacts of Critical Period on Multimodal AI Agents
臨界期は、幼児の脳が噴出して発達する段階です。子供の認知発達を促進するために、この段階では適切な指導が重要です。しかし、AIエージェントのトレーニングにもそのような重要な時期が存在するかどうかは明らかではありません。人間の幼児と同様に、タイミングの良いガイダンスとマルチモーダルインタラクションは、AIエージェントのトレーニング効率も大幅に向上させる可能性があります。この仮説を検証するために、この臨界期の概念をAIエージェントでの学習に適応させ、AIエージェントの仮想環境での臨界期を調査します。強化学習(RL)フレームワークで、臨界期と幼児ガイダンス学習を形式化します。次に、VECAツールキットを使用して幼児のような環境を構築し、人間の幼児の学習特性を模倣しました。相互作用の3つの個別のレベルを研究します:弱いメンターガイダンス(まばらな報酬)、中程度のメンターガイダンス(ヘルパー報酬)、およびメンターデモンストレーション(行動のクローン作成)。また、幼児の視点を完全に反映するために、30,000枚の実世界の画像で構成されるEAVEデータセットを紹介します。臨界期がAIエージェントに与える影響を、ユニモーダル学習とマルチモーダル学習の両方で最適に誘導される方法とタイミングという2つの観点から評価します。私たちの実験結果は、中程度のメンターガイダンスと100万および200万のトレーニングステップでの臨界期間を持つユニモーダルおよびマルチモーダルエージェントの両方が顕著な改善を示すことを示しています。これらの結果をEAVEデータセットの転移学習で検証し、同じ重要な期間とガイダンスでパフォーマンスの向上を見つけます。
Critical periods are phases during which a toddler's brain develops in spurts. To promote children's cognitive development, proper guidance is critical in this stage. However, it is not clear whether such a critical period also exists for the training of AI agents. Similar to human toddlers, well-timed guidance and multimodal interactions might significantly enhance the training efficiency of AI agents as well. To validate this hypothesis, we adapt this notion of critical periods to learning in AI agents and investigate the critical period in the virtual environment for AI agents. We formalize the critical period and Toddler-guidance learning in the reinforcement learning (RL) framework. Then, we built up a toddler-like environment with VECA toolkit to mimic human toddlers' learning characteristics. We study three discrete levels of mutual interaction: weak-mentor guidance (sparse reward), moderate mentor guidance (helper-reward), and mentor demonstration (behavioral cloning). We also introduce the EAVE dataset consisting of 30,000 real-world images to fully reflect the toddler's viewpoint. We evaluate the impact of critical periods on AI agents from two perspectives: how and when they are guided best in both uni- and multimodal learning. Our experimental results show that both uni- and multimodal agents with moderate mentor guidance and critical period on 1 million and 2 million training steps show a noticeable improvement. We validate these results with transfer learning on the EAVE dataset and find the performance advancement on the same critical period and the guidance.
updated: Wed Jan 12 2022 10:57:40 GMT+0000 (UTC)
published: Wed Jan 12 2022 10:57:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト