Auto-apprentissage roche - papier - ciseaux Robot Lego Mindstorms NXT ! (2 / 5 étapes)

Étape 2: Comment le robot apprend-il si elle n’est pas tricher? ! (Partie 1)

Comme je l’ai écrit sur la première étape, ce robot demande tout d’abord l’humain (beaucoup plus intelligent!) à l’entrée d’un mouvement à travers les capteurs tactiles. Il sera ensuite regarder à travers une base de données et déterminer quel est le meilleur coup possible de faire. Après avoir fait ce geste, l’homme devra dire le robot si il a gagné/perdu/liée pour ce tour. Si le robot ne sait pas que rock > ciseaux, papier > rock ou ciseaux > papier (je n’avez pas programmé ces règles dans le robot), comment il peut utiliser cette information pour apprendre? !

Le robot crée une base de données virtuel (pour vous les geeks de l’ordinateur, il utilise un tableau à 3 dimensions pour cela!). Pensez à cette base de données comme le cube de rubik. Le robot doit garder une trace de trois choses: 1) le passage du joueur entré (roche, papier ou des ciseaux) ; 2) le passage du robot fait (encore roche, papier ou ciseaux) ; et 3) le résultat de ce cycle (la victoire de robot, perdre ou cravate avec le lecteur?). Dans cette base de données, le robot tiendra compte à une probabilité de réussite pour ce déménagement. Cette valeur est stockée dans le tableau, ou (en utilisant l’analogie de la Rubik Cube) dans l’un des 27 cubes.

Par exemple, si le joueur a choisi ROCK, mais le robot choisir des ciseaux, le robot perdu, donc il entrera un taux de réussite de 0 % à jouer des ciseaux quand le joueur choisit la roche à l’avenir.

Afin d’encourager le robot pour apprendre, je récompense le robot à l’aide d’un système de points virtuels ! Une analogie est celle d’un petit enfant. Si je suis monté à l’enfant et dit: « Hey, je vais vous donner 20 $ si vous pouvez apprendre à piloter vous-même! », l’enfant pensera, "Wow ! 20 $! C’est une bonne récompense ! Je vais essayer! ". L’enfant sera tout d’abord ramper, marcher, puis exécuter puis puis sautez dans le but de voler et d’obtenir la récompense de 20 $. Toutefois, le gamin apprendront finalement qu’il/elle ne peut pas voler sans un avion et ne saurait être accueillie. Cependant, le long du chemin, le gamin avait appris comment le ramper, marcher, courir et sauter !

J’ai appliqué ces principes au robot ! Au lieu d’argent (j’ai sérieusement gaspillerait mon temps à essayer de donner mon robot 20 $?!), je vais donner le robot un point virtuel (+ 1) si le robot bat le joueur. MAIS, j’ôterai 10 000 points virtuels du robot (oui je suis moyenne) si le robot perd ou si des liens étroits avec le joueur. Étant donné que le robot veut maximiser le nombre de points, qu'il gagne, il utilisera les probabilités de succès dans sa base de données pour atteindre cet objectif.

Voir l'étape

Articles Liés

Tissé de la configuration et la framboise Pi Si vous avez déjà essayé de configurer votre Pi framboise comme un périphérique Internet of Things, vous saurez que, sau ...
Treehouse génial Jungle Minecraft Dès l'instant où mes pieds polyédriques entra dans un biome de la jungle...Le moment où que mes yeux ont vu les arbres g ...
Construire des avions R/C classique avec de nouvelles méthodes Cet Instructable va montrer comment générer des versions léger, électriques, d'un couple de classiques avions R/C, rapid ...
Boîte de cadeau rouleau TP Ces coffrets sont une idée géniale pour une option d'habillage vraiment bizarre et personnalisé pour les petits objets. ...
S.S. sauver Wheezy Wheezy est en Difficulté! Les morses maléfiques du pôle Sud ont kidnappé Wheezy et c'est à vous d'aller lui porter secou ...