Étape 2: Comment le robot apprend-il si elle n’est pas tricher? ! (Partie 1)
Le robot crée une base de données virtuel (pour vous les geeks de l’ordinateur, il utilise un tableau à 3 dimensions pour cela!). Pensez à cette base de données comme le cube de rubik. Le robot doit garder une trace de trois choses: 1) le passage du joueur entré (roche, papier ou des ciseaux) ; 2) le passage du robot fait (encore roche, papier ou ciseaux) ; et 3) le résultat de ce cycle (la victoire de robot, perdre ou cravate avec le lecteur?). Dans cette base de données, le robot tiendra compte à une probabilité de réussite pour ce déménagement. Cette valeur est stockée dans le tableau, ou (en utilisant l’analogie de la Rubik Cube) dans l’un des 27 cubes.
Par exemple, si le joueur a choisi ROCK, mais le robot choisir des ciseaux, le robot perdu, donc il entrera un taux de réussite de 0 % à jouer des ciseaux quand le joueur choisit la roche à l’avenir.
Afin d’encourager le robot pour apprendre, je récompense le robot à l’aide d’un système de points virtuels ! Une analogie est celle d’un petit enfant. Si je suis monté à l’enfant et dit: « Hey, je vais vous donner 20 $ si vous pouvez apprendre à piloter vous-même! », l’enfant pensera, "Wow ! 20 $! C’est une bonne récompense ! Je vais essayer! ". L’enfant sera tout d’abord ramper, marcher, puis exécuter puis puis sautez dans le but de voler et d’obtenir la récompense de 20 $. Toutefois, le gamin apprendront finalement qu’il/elle ne peut pas voler sans un avion et ne saurait être accueillie. Cependant, le long du chemin, le gamin avait appris comment le ramper, marcher, courir et sauter !
J’ai appliqué ces principes au robot ! Au lieu d’argent (j’ai sérieusement gaspillerait mon temps à essayer de donner mon robot 20 $?!), je vais donner le robot un point virtuel (+ 1) si le robot bat le joueur. MAIS, j’ôterai 10 000 points virtuels du robot (oui je suis moyenne) si le robot perd ou si des liens étroits avec le joueur. Étant donné que le robot veut maximiser le nombre de points, qu'il gagne, il utilisera les probabilités de succès dans sa base de données pour atteindre cet objectif.