> Formations > Technologies numériques > Développement logiciel > Python > Formation Web Scraping, récolter des données sur le web avec Python > Formations > Technologies numériques > Formation Web Scraping, récolter des données sur le web avec Python

Formation : Web Scraping, récolter des données sur le web avec Python

Web Scraping, récolter des données sur le web avec Python




Vous devez extraire des données du web, les manipuler, les vérifier ou les archiver ? Pour être plus performant, automatisez vos récoltes, élargissez le champ de ces opérations. Optez pour le web scraping avec Python, ses bibliothèques de scraping et sa simplicité permettent rapidement d'industrialiser les processus.


INTER
INTRA
SUR MESURE

Cours pratique
Disponible en anglais, à la demande

Réf. WPY
  4j - 28h00
Prix : 2440 € H.T.
Pauses-café et
déjeuners offerts




Vous devez extraire des données du web, les manipuler, les vérifier ou les archiver ? Pour être plus performant, automatisez vos récoltes, élargissez le champ de ces opérations. Optez pour le web scraping avec Python, ses bibliothèques de scraping et sa simplicité permettent rapidement d'industrialiser les processus.


Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
Maîtriser les bases du langage Python
Connaître des éléments de programmation avancée en Python
Posséder une vue d'ensemble des principales librairies Python disponibles pour gérer tous types de données de sites
Sélectionner la bonne librairie Python pour votre projet de web scraping et être capable de la mettre en œuvre
Savoir automatiser des récoltes d’envergure (large-scale web scraping) avec des scripts

Public concerné
Développeurs, consultants, analystes, chefs de projet et toute personne souhaitant automatiser la récolte de données sur le web.

Prérequis
Maitriser les bases de l'algorithmique ou savoir programmer. Avoir des connaissances en HTML et CSS est recommandé.
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant  ce test.

Méthodes et moyens pédagogiques
Travaux pratiques
De nombreux exercices sont réalisés pour illustrer et assimiler les sujets.
Méthodes pédagogiques
Pédagogie active, des retours d'expérience, des démonstrations sont mises en œuvre par le formateur pour une mise en pratique rapide par les participants.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Programme de la formation

Les bases du langage Python

  • Les principaux types de variables.
  • Effectuer des opérations et travailler sur les chaînes de caractères.
  • Les structures de données en Python.
  • Comprendre les types mutable et immutable.
  • Les structures de contrôle.
  • Créer et utiliser des fonctions
  • Lire et écrire des fichiers textes ou binaires.
Travaux pratiques
Se familiariser avec le langage, les structures de contrôle et la manipulation de données. Utiliser des fonctions. Créer un petit jeu.

Eléments de programmation avancée en Python

  • Les fonctions anonymes lambda.
  • Comprendre l’utilité des générateurs et savoir en créer.
  • Traiter les erreurs avec la gestion des exceptions.
  • Créer de nouveaux types de données avec la programmation objet.
  • Notions d’héritage en programmation objet.
  • Utiliser une librairie.
  • Sélectionner et évaluer les librairies développées en open source
Travaux pratiques
Écrire un générateur. Créer et manipuler un objet avec ses attributs et des méthodes.

Extraire des données via des API Restful

  • Se connecter à une API web.
  • Effectuer différents types de requêtes HTTP.
  • Le format JSON, analyser les données extraites.
  • Rechercher des données spécifiques dans du texte avec des expressions régulières.
  • Gérer les erreurs de connexion.
Travaux pratiques
Extraire les bonnes données dans un texte. Récolter et exploiter des informations de géolocalisation via une API RESTful. Évaluer les résultats d’une connexion API réelle.

Capter des tableaux de données sur internet et les traiter avec Pandas

  • Rappel des bases HTML et CSS.
  • Les fondamentaux de Pandas.
  • Importer et exporter des données dans différents formats.
  • Manipuler des données avec Pandas.
  • Scraper des tableaux de données sur le web.
Travaux pratiques
Extraire des données numériques à jour sur Internet. Traiter et archiver les données récoltées.

Scraper des sites web avec Beautiful Soup

  • Scraping facile : Beautiful Soup.
  • Mettre en œuvre le parser.
  • Rechercher dans l’arborescence du parser.
Travaux pratiques
Scraper des sites web avec Beautiful Soup. Trouver rapidement les données utiles, les sauvegarder avec les informations correspondantes.

Automatiser des récoltes d’envergure avec Scrapy

  • Le fonctionnement de base du framework Scrapy.
  • Identifier du contenu à scraper.
  • Structurer une spider.
  • Automatiser une récolte Scrapy et enregistrer les résultats.
  • Évaluer la performance d’une campagne.
Travaux pratiques
Crawler des articles web et récolter les données pertinentes avec Scrapy.
Parcours certifiants associés
Pour aller plus loin et renforcer votre employabilité, découvrez les parcours certifiants qui contiennent cette formation :

Solutions de financement
Plusieurs solutions existent pour financer votre formation et dépendent de votre situation professionnelle.
Découvrez-les sur notre page Comment financer sa formation ou contactez votre conseiller formation.

Horaires
les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.

Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance

Dernières places
Date garantie en présentiel ou à distance
Session garantie