> Formations > Technologies numériques > Développement logiciel > Python > Formation Spark Python, développer des applications pour le big data > Formations > Technologies numériques > Formation Spark Python, développer des applications pour le big data

Formation : Spark Python, développer des applications pour le big data

Spark Python, développer des applications pour le big data



Best

Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Conçu au départ pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python, devenu prédominant. Ce cours vous fait découvrir Spark Python.


INTER
INTRA
SUR MESURE

Cours pratique en présentiel ou à distance
Disponible en anglais, à la demande

Réf. QNC
  3j - 21h00
Prix : 1910 € H.T.
Pauses-café et
déjeuners offerts




Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Conçu au départ pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python, devenu prédominant. Ce cours vous fait découvrir Spark Python.


Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
Découvrir les concepts fondamentaux de Spark
Utiliser le concept des RDD de Spark
Exploiter des données avec Spark SQL
Effectuer de l’analyse en temps réel avec Spark Streaming
Utiliser Spark avec les notebooks Jupyter, manipuler les données avec Pyspark comme avec Pandas
Aborder le machine learning avec Spark

Public concerné
Toute personne connaissant Python souhaitant découvrir le framework Spark de la fondation Apache.

Prérequis
Bonne pratique du langage Python.
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant  ce test.

Méthodes et moyens pédagogiques
Exercice
De nombreux exercices sont réalisés pour illustrer les sujets.
Méthodes pédagogiques
Chaque sujet est illustré par des démonstrations se déroulant sur un cluster dans le cloud. Les participants réalisent des exercices après la présentation des concepts.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Programme de la formation

Présentation d’Apache Spark

  • Historique du framework.
  • Les quatre principaux composants : Spark SQL, Spark Streaming, MLlib et GraphX.
  • Les outils et les librairies Python pour Spark : PySpark, notebooks Jupyter, Koalas.
  • Les concepts de programmation de Spark.
  • Exécuter Spark dans un environnement distribué.
Travaux pratiques
Mise en place de l’environnement Python pour Spark. Mise en œuvre de scripts manipulant des concepts de Spark.

Utiliser Spark avec Python : les resilient distributed datasets (RDD)

  • Configurer son environnement Python.
  • Se connecter à Spark avec Python : les contextes et les sessions.
  • Présentation des RDD. Créer, manipuler et réutiliser des RDD.
  • Les principales fonctions/transformations, mise en œuvre d’algorithmes de type map/reduce.
  • Accumulateurs et variables broadcastées.
  • Utiliser des partitions.
  • Utiliser les notebooks et soumettre des jobs Python.
Travaux pratiques
Manipulation de contextes et de sessions. Création et réutilisation de RDD. Soumission de travaux.

Manipuler des données structurées

  • Présentation de Spark SQL et des DataFrames et datasets.
  • Les différents types/formats de sources de données.
  • Interopérabilité avec les RDD.
  • Utiliser la librairie PySpark Pandas.
Travaux pratiques tutorés
Exécution de requêtes avec Spark SQL. Mise en œuvre de DataFrames et datasets. Manipulation de DataFrame.

Machine learning avec Spark

  • Introduction au machine learning.
  • Les différentes classes d'algorithmes.
  • Présentation de MLlib.
  • Implémentation des différents algorithmes dans MLlib.
Travaux pratiques
Mise en œuvre d’apprentissages supervisés au travers d’une classification.

Analyser en temps réel avec Spark Streaming

  • Comprendre l’architecture du streaming.
  • Présentation des Discretized Streams (DStreams).
  • Les différents types de sources.
  • Manipulation de l'API (agrégations, watermarking...).
  • Machine learning en temps réel.
Travaux pratiques
Création de statistiques en temps réel à partir d’une source de données et prédictions à l’aide du machine learning.

Théorie des graphes

  • Introduction à la théorie des graphes (nœuds, arêtes, graphes orientés, chemins, principaux algorithmes).
  • Utilisation de l’API.
  • Présentation des librairies GraphX et GraphFrame.
Travaux pratiques
Mise en œuvre d’un algorithme de recherche du plus court chemin ou page rank et visualisation du graphe.
Parcours certifiants associés
Pour aller plus loin et renforcer votre employabilité, découvrez les parcours certifiants qui contiennent cette formation :

Solutions de financement
Plusieurs solutions existent pour financer votre formation et dépendent de votre situation professionnelle.
Découvrez-les sur notre page Comment financer sa formation ou contactez votre conseiller formation.

Avis clients
3,8 / 5
Les avis clients sont issus des évaluations de fin de formation. La note est calculée à partir de l’ensemble des évaluations datant de moins de 12 mois. Seules celles avec un commentaire textuel sont affichées.
HIND G.
09/12/24
4 / 5

La documentation était claire et facile à comprendre, en revanche, ce qui m’a pris bcp de temps c’est la configuration des outils d’éxécutions, ce qui était proposés par le centre de formation ne fonctionne pas.Sinon je tiens à remercier le formateur pour son aide et sa disponibilité.
FLORIAN P.
09/12/24
4 / 5

Bien, j’ai découvert PySpark comme le promet l’intitulé de la formation. En revanche, je maîtrise Python et Pandas et n’ai pas cerné les avantages de Spark au travers des TPs proposés. Enfin, les TPs étaient selon moi trop lights (généralement guidés voir fait) si bien que le temps consacré était à mon goût trop long. Plus de TPs avec des niveaux différents ou plus consistant m’aurait plus.Avec mes bagages, je ne suis finalement, peut-être pas le public cible de cette formati
KHEIRA C.
09/12/24
5 / 5

Formateur très pédagogue, à l’écoute et compétent.



Horaires
les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.

Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance

Dernières places
Date garantie en présentiel ou à distance
Session garantie