arXiv reaDer
Policy Learning for Malaria Control
  逐次的な意思決定は、それを解決するための多くのアルゴリズムを備えた強化学習の典型的な問題です。ただし、ごく少数の観測で効果的に機能できるのはごくわずかです。このレポートでは、2019年のKDDカップチャレンジで強化学習問題としてのマラリア対策のポリシーを学習するための進捗状況を紹介し、限られた観測問題に対処するための多様なソリューションを提案します。遺伝的アルゴリズム、ベイジアン最適化、シーケンスブレークを伴うQラーニングを適用して、わずか20エピソード/ 100評価で5年間の最適なポリシーを見つけます。これらのアルゴリズムを評価し、そのパフォーマンスをランダム検索とベースラインとして比較します。これらのアルゴリズムの中で、シーケンスブレークを伴うQラーニングがチャレンジに提出され、KDDカップで7位にランクされました。
Sequential decision making is a typical problem in reinforcement learning with plenty of algorithms to solve it. However, only a few of them can work effectively with a very small number of observations. In this report, we introduce the progress to learn the policy for Malaria Control as a Reinforcement Learning problem in the KDD Cup Challenge 2019 and propose diverse solutions to deal with the limited observations problem. We apply the Genetic Algorithm, Bayesian Optimization, Q-learning with sequence breaking to find the optimal policy for five years in a row with only 20 episodes/100 evaluations. We evaluate those algorithms and compare their performance with Random Search as a baseline. Among these algorithms, Q-Learning with sequence breaking has been submitted to the challenge and got ranked 7th in KDD Cup.
updated: Sun Oct 20 2019 08:19:40 GMT+0000 (UTC)
published: Sun Oct 20 2019 08:19:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト