Aller au contenu principal

AMBIENT IT : 11. Spark, développer des applications pour le Big Data

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
882€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
3528€ HT / groupe
4 stagiaires minimum

Public

Chefs de projet, Data Scientists, Développeurs, Architectes…

Pré-requis

Avoir des connaissances de Java ou Python et des notions de calculs statistiques

Objectifs pédagogiques

Maîtriser les concepts fondamentaux de Spark

Savoir intégrer Spark dans un environnement Hadoop

Développer des applications d’analyse en temps réel avec Spark Streaming

Faire de la programmation parallèle avec Spark sur un cluster

Manipuler des données avec Spark SQL

Avoir une première approche du Machine Learning

Programme détaillé

JOUR 1 – COMPRENDRE ET UTILISER SPARK 3

CONTEXTE ET PROBLÉMATIQUE DU BIG DATA – CALCUL DISTRIBUÉ

  • Pourquoi Spark ? Les nouveautés de la version 2 & 3
  • Installation en standalone, test avec jupyter
  • Spark Core (Remplaçant de MapReduce)
  • RDD Resilient Distributed Datasets
  • PairedRDD
  • Spark Context VS Spark Session
  • DAG Directed Acyclic Graph
  • RDD Objects, DAG Scheduler, Task Scheduler, Worker
  • Hadoop et HDFS
  • NameNode & DataNode
    • core-site, hdfs-site
  • Spark sur un Cluster
  • Spark Standalone : Cluster Manager, Worker, Executor, Spark Context
  • Mesos (Private Cluster), Marathon, YARN
  • Structured API

 

SPARK SQL (REMPLAÇANT DE HIVE)

  • SQLContext
  • HiveContext
    • DataFrames
    • Spark Structure, Schéma et partitionnement

 

JOUR 2 – APPRÉHENDER LE MACHINE LEARNING ET SON INTÉGRATION DANS SPARK 3

INTRODUCTION AU MACHINE LEARNING (ML)

  • Apprentissage supervisé
  • Apprentissage non-supervisé
  • Clustering : KNN, K-mean
  • Régression : Arbre de régression
  • Classification : Random Forest, SVM, AUC, Courbe ROC

SPARK ML – INTRODUCTION

  • Pipelines : Transformer, Estimator, Model
  • ML persistence
  • MLlib in R & PySpark

DATAVISUALISATION

  • Matplotlib
  • Seaborn
  • Plotly
  • Bokeh

GRAPHFRAME

  • Présentation du package

 

JOUR 3 – SPARK 3 EN MODE AVANCÉ : MANIPULER LES DONNÉES À GRANDE ÉCHELLE

SPARK STREAMING

  • Structured Streaming API
  • StreamingContext
  • Static et Dynamic Datasets
    •  Continuous Aggregations
    •  Encoders
  • Analyse temps-réel d’un fichier de log (Real-Time Analytics)
    • Gagner en efficacité grâce à Catalyst Optimizer et Tungsten Engine
  • Création d’agents, de sources, channel et sink
  •  Sérialisation avec Avro RPC

SPARKR

  • Présentation du package

DEEP LEARNING PIPELINE

  • Présentation du package
  • Concept de transfert learning

CONCLUSION

  • Lambda VS Kappa architecture

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.