Critic Guided Segmentation of Rewarding Objects in First-Person Views
この作業では、模倣学習データセットからのまばらな報酬信号を使用して、画像内の報酬オブジェクトをマスクする学習アプローチについて説明します。そのために、評論家モデルからのフィードバックのみを使用して砂時計ネットワークをトレーニングします。砂時計ネットワークは、これら2つの画像間でマスクされた領域を交換することにより、高スコア画像の評論家のスコアを下げ、低スコア画像の評論家のスコアを上げるマスクを作成することを学習します。 NeurIPS 2020 MineRLコンペティショントラックの模倣学習データセットでモデルをトレーニングしました。モデルは、複雑なインタラクティブ3D環境で報酬オブジェクトをまばらな報酬信号でマスクすることを学習しました。このアプローチは、このコンテストで優勝したソリューションの一部でした。ビデオのデモンストレーションとコード:
This work discusses a learning approach to mask rewarding objects in images using sparse reward signals from an imitation learning dataset. For that, we train an Hourglass network using only feedback from a critic model. The Hourglass network learns to produce a mask to decrease the critic's score of a high score image and increase the critic's score of a low score image by swapping the masked areas between these two images. We trained the model on an imitation learning dataset from the NeurIPS 2020 MineRL Competition Track, where our model learned to mask rewarding objects in a complex interactive 3D environment with a sparse reward signal. This approach was part of the 1st place winning solution in this competition. Video demonstration and code:
updated: Tue Jul 20 2021 14:54:43 GMT+0000 (UTC)
published: Tue Jul 20 2021 14:54:43 GMT+0000 (UTC)
