Etape 3: Comment le robot apprend-il si elle n’est pas tricher? ! (Partie 2)
La principale variable est appelée EPSILON. Cette variable est également connu comme le taux d’apprentissage. Mises en chantier de Epsilon out ridiculement élevé, ce qui provoque le robot rendre aléatoire se déplace au début du jeu. Comme le robot joue plus (et par conséquent apprend les meilleurs coups à faire contre le joueur), Epsilon diminue. Étant donné que Epsilon devient plus petit, au fil du temps, le robot commencera lentement à utiliser les probabilités de succès dans sa base de données contre le joueur.
Les trois autres variables sont : ALPHA, GAMMA et KAPPA.
Alpha conserve une trace de combien chaque geste influe sur l’apprentissage du robot. Cela semble confus ! En fait, Alpha est intentionnellement sur plus près de zéro que possible. Si un joueur se trouve (* soupir *) au robot (par exemple si le joueur a choisi rock et le robot a choisi le papier, mais le joueur affirme que le robot perdu), une faible valeur de Alpha provoquera le robot d’ignorer le mensonge ! Toutefois, si Alpha est trop faible, alors le robot n’apprendre pas aussi vite.
Gamma est un taux de récompense. Gamma est la valeur haute (0,80) parce que Gamma s’approche de 1, le robot est plus susceptible de commencer à utiliser les probabilités de succès plus tôt.
Kappa est une valeur de rigueur qui aide le robot à affiner ses probabilités.