Reward model
Un reward model est un élément essentiel de l’apprentissage par renforcement. Il permet d’évaluer les actions d’une IA et de la guider vers l’objectif souhaité. Qu’est-ce que reward model ? C’est une fonction qui attribue une « récompense » à chaque action d’une IA, permettant ainsi d’apprendre par essais et erreurs. Comment fonctionne un reward model ? […]