- Mon Shot de Data Science
- Posts
- Génère tes propres données fictives en quelques secondes
Génère tes propres données fictives en quelques secondes
#30 - Le module Faker de Python
Généralement, pour exécuter/tester un pipeline, nous devons lui fournir des données fictives.
La bibliothèque "random" de Python permet de générer des chaînes de caractères, des nombres flottants et des nombres entiers aléatoires. Cependant, étant donné qu'elle est aléatoire, elle ne produit pas forcément de données réellement valables et pertinentes (telles que les noms des personnes, les noms des villes, les e-mails, etc.).
Note que la recherche d'ensembles de données open-source peut prendre beaucoup de temps. De plus, il est possible que l'ensemble de données que tu trouves ne corresponde pas tout à fait à tes besoins.
Alors comment faire pour “trouver” les meilleures données fictives pour tester son pipeline ?
Eh bien, le module Faker de Python est une solution parfaite à ce problème. En effet, Faker te permet de générer rapidement des données factices (et 100% valables) entièrement personnalisables. De plus, tu peux également générer des données spécifiques à un groupe démographique (exemple français sur l’illustration ci-dessus).
Pour en savoir plus, clique ici pour consulter la documentation.
Je te donne également l’accès au notebook produisant les données factices de l’illustration ci-dessus.
Ça t'a plu ? 😎 |
Reply