Hello,
We would like to clarify that starting from Section 3.2 in Miniproject 2, all the agents should be trained with the stochastic rewards.
Suivre les pulsations de l'EPFL sur les réseaux sociaux
© 2023 EPFL, tous droits réservés