Étape 3: YQL (YAHOO QUERY LANGUAGE)
Ainsi nous avons identifié où dans la page web notre
sont des noms d’utilisateur. Nous devons maintenant juste à obtenir cette information dans un format traversable. Normalement, les grattoirs sont construits par juste charger la page web entière dans un format de nœud XML arborescente dense. Il s’agit d’un mal de tête. Chargement d’une page Web dans JSON est beaucoup plus facile car il nous permet d’accéder aux éléments directement en utilisant le. opérateur. Pour obtenir la page web au format JSON, nous allons utiliser le langage de requête de Yahoo. Fondamentalement YQL est un outil ouvert construit par Yahoo à la requête web pages en Json. La langue est très similaire à MYSQL. Voici le lien vers la console :
https://developer.yahoo.com/YQL/console/
Voici à quoi il ressemble: (image 1)
Si notre requête est assez simple :
Sélectionnez * de html où url = « https://www.reddit.com/r/arduino/comments/3rixq5/i_programmed_a_robot_arm_to_feed_me_breakfast/ » et xpath = "/ / a [contient ()
Sélectionnez * signifie simplement sélectionner tous les éléments de la page Web où l’url = notre fil de reddit.
L’expression xpath dit essentiellement, recherche par le biais de la page et retourner chaque endroit où nous avons une balise avec une classe de « auteur ».
Comme vous pouvez le voir la requête est réussie et renvoie tous les noms d’utilisateurs nous voulions:(image 2)
Pour obtenir ce résultat dans un format JSON, cliquez simplement sur l’onglet de json: (image 3)