Étape 1: La théorie derrière le grattage
Dis donc, que j’ai eu un site Web simple qui ressemblait à ce qui suit
Nous pouvons voir que les informations vitales que nous voulons se trouve dans une période correspondant à la classe « hiInstructables ». (Image 1) Il s’avère que les sites Web sont très cohérents lorsqu’un élément d’information d’étiquetage. Donc on peut supposer que s’il y avait plusieurs éléments vitaux d’information que nous avions besoin, ils seraient étiquetés tous avec la même classe comme suit: (Image 2)
Si cela s’attaque à l’essence de grattage. Sites Web utilisent un format spécifique pour l’étiquetage de leur contenu. Si nous pouvons comprendre ce que que le format est, alors nous pouvons faire un programme qui automatiquement cherche ces étiquettes dans ce format pour obtenir les données que nous avons besoin.