Etape 5: Nettoyer et convertir des données
Les ensembles de données brutes que j’ai obtenu ont été dans différents formats : JSON, CSV et TSV même. Les champs sont déglingués, les données peuvent être glitchy et mon but est de se retrouver avec le même format pour chaque ensemble de données, que j’ai tracé en fin de compte pour les fichiers vectoriels à l’aide OpenFrameworks, une boîte à outils C++ en ligne populaire.
Parfois, je pouvais le faire avec un tableur comme Excel, de nombres ou de mon nouveau favori, KaliedaGraph.
D’autres fois, j’ai mon propre code de conversion de données en Python, qui repose sur le code de mon SF_Geocoder serait fouet. L’avantage avec ce code est qu’il va prendre des intersections dans n’importe quelle ville et utiliser l’API Google Maps pour générer les lat/longs.
Le format de fichier en fin de compte, j’ai généré pour chaque jeu de données était un CSV standard avec :
colonne 1 = premier descripteur (par exemple, un numéro d’identification)
colonne 2 = descripteur principal (comme une date)
colonne 3 = latitude
colonne 4 = longitude
colonne 5 = taille
Le champ taille est souvent ignoré dans les ensembles de données tels que les observations d’ovnis et expulsions de San Francisco mais ils sont utilise pour agrandir les formes de jeux de données tels que les Prisons américaines, où la taille est la population de la prison.