Web Scraping : scraper n'importe quel site web avec Node js
web scraping
What you will learn
Récupérer les informations de n'importe quel page web
Récupérer les informations de plusieurs pages web d'un même site
Gérer la pagination des sites afin de pouvoir récupérer l'intégralité des informations sur le site
Stockez les informations sous différents formats à savoir ici Xls et Json.
Why take this course?
Bienvenue dans ce cours sur le web scraping.
web scraping c'est quoi ?
- technique d'extraction du contenu (des données) de sites Web,
Comment ?
- via un script ou un programme
Pourquoi ?
- dans le but de le transformer pour permettre son utilisation dans un autre contexte.
Exemples :
- par exemple le référencement
- on peut utiliser ces données pour créer une api, et les afficher sur un autre site par exemple.
Dans ce cours vous allez apprendre à scraper n'importe quel site web grâce à node js et la librairie puppeteer.
Puppeteer est une librairie Node Js qui permet de controller un navigateur chrome en headless.
Cette librairie peut être utilisée pour différentes actions comme :
- Générer des screen shots et des pdf
- Scraper le contenu de sites web
- Automatiser le remplissage de formulaire
- Créer des tests automatisés
- Tester des interface UI de manière automatisé
Dans un premier temps vous saurez récupérer les informations sur une seule page web, puis nous verrons comment récupérer les données sur plusieurs pages.
Vous serez en mesure de gérer la pagination de différents sites web afin de récupérer toutes les données.
Vous serez enfin en mesure d'enregistrer ces données sous différents formats.
A la fin de ce cours vous saurez :
- Récupérer les informations de n'importe quel page web
- Récupérer les informations de plusieurs pages web d'un même site
- Gérer la pagination des sites afin de pouvoir récupérer l'intégralité des informations sur le site via deux méthodes
- Stockez les informations sous différents formats à savoir ici Xls et Json.