> Formations > Technologies numériques > Intelligence Artificielle, Big Data > Big Data > Formation Spark Avancé > Formations > Technologies numériques > Formation Spark Avancé

Formation : Spark Avancé

Machine Learning et industrialisation des flux analytiques

Spark Avancé

Machine Learning et industrialisation des flux analytiques


New

Framework de calcul distribué, Spark permet d'effectuer des traitements et des analyses complexes en big data. Vous avez déjà utilisé Spark, nous vous proposons ici d’approfondir vos analyses avec du machine learning et de découvrir le MLOps pour le déploiement et l’industrialisation des modèles analytiques.


INTER
INTRA
SUR MESURE

Cours pratique
Disponible en anglais, à la demande

Réf. SPN
  3j - 21h00
Prix : 2330 € H.T.
Pauses-café et
déjeuners offerts




Framework de calcul distribué, Spark permet d'effectuer des traitements et des analyses complexes en big data. Vous avez déjà utilisé Spark, nous vous proposons ici d’approfondir vos analyses avec du machine learning et de découvrir le MLOps pour le déploiement et l’industrialisation des modèles analytiques.


Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
Apprendre l’analyse avancée des données avec Spark
Effectuer des traitements de machine learning (ML) avec Spark
Comprendre Docker et son utilité dans le cadre de l'industrialisation des flux analytiques
Détailler et mettre en œuvre les étapes du cycle analytique avec Spark
Apprendre l’industrialisation du flux d’analyse
Découvrir le MLOps

Public concerné
Professionnels qui souhaitent utiliser Spark pour faire de l’analytique en mode batch ainsi qu'en temps réel.

Prérequis
Connaissances des API Spark, notamment RDD et DataFrame. Connaissances des algorithmes d’apprentissage supervisés et non supervisés. Maîtrise d’un des langages suivants : Scala, Python.
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant  ce test.

Méthodes et moyens pédagogiques
Travaux pratiques
Alternance de théorie et de travaux pratiques. 60?% d'exercices pour un meilleur approfondissement. Des retours d'expérience concrets.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Programme de la formation

Introduction

  • Rappels sur l'API Spark.
  • Concepts de Docker et son utilité dans les analyses de données.
  • Les conteneurs Docker.
Travaux pratiques
Prise en main de l'environnement de travail, création des conteneurs Docker.

Le cycle analytique avec Spark

  • Ingestion de données.
  • Exploration.
  • Préparation des données.
  • Apprentissage.
  • Industrialisation.
Echanges
Présentation de cas concrets et échanges autour des différentes étapes du cycle.

Ingestion des données.

  • Le chargement de données.
  • Traitements batch.
  • Traitements en streaming.
  • Les formats de données : images, binaires, structurés, Graph…
Travaux pratiques
Chargement de données à partir de diverses sources.

Exploration des données

  • Statistiques descriptives.
  • Identifier les cas aberrants, les données vides.
  • Identifier les valeurs invalides et autres anomalies.
Travaux pratiques
Identifier les anomalies dans un jeu de données.

Préparation et feature engineering (processus de transformation de données)

  • Nettoyage des données.
  • Pipelines.
  • Transformer les valeurs numériques, catégoriques, binaires et texte.
  • Création de nouvelles features.
  • Réduction de dimensions.
  • Vectorisation.
Travaux pratiques
Préparer les données pour effectuer des analyses.

Cycle de vie du ML avec MLflow

  • Cycle de vie d'un projet de machine learning.
  • Présentation de la plateforme open source MLflow.
  • Les composants principaux de MLflow : Tracking, Models et Projects.
  • Paramètres, métriques, balises et artefacts.
Travaux pratiques
Création et utilisation d’un projet de machine learning.

Machine learning

  • MLlib la bibliothèque d'apprentissage automatique de Spark et les algorithmes disponibles.
  • Diviser un jeu de données.
  • Configurer un modèle et l’exécuter.
  • Interprétation et validation de résultats d’apprentissage.
  • Introduction à Spark Streaming.
Travaux pratiques
Mise en œuvre du machine learning.

Études de cas

  • Effectuer des recommandations.
  • Faire des prévisions de vente.
  • Analyse sémantique.
  • Computer vision avec Spark et PyTorch.
  • Analyse temps réel avec Spark et Kafka.
Etude de cas
Effectuer les différentes études de cas proposées.
Solutions de financement
Plusieurs solutions existent pour financer votre formation et dépendent de votre situation professionnelle.
Découvrez-les sur notre page Comment financer sa formation ou contactez votre conseiller formation.

Avis clients
4,5 / 5
Les avis clients sont issus des évaluations de fin de formation. La note est calculée à partir de l’ensemble des évaluations datant de moins de 12 mois. Seules celles avec un commentaire textuel sont affichées.
ALI YASMINA A.
09/10/24
5 / 5

Le contenu est globalement intéressant et couvre l’objectif de la formation. La pédagogie est efficace et permet de bien assimiler les différents concepts. dans l’ensemble, je suis satisfaite.
AMIRA T.
09/10/24
5 / 5

Bonne formation, complète et répond à mes attentes.



Horaires
les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.

Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance

Dernières places
Date garantie en présentiel ou à distance
Session garantie