AMBIENT IT : 11. Spark, développer des applications pour le Big Data
Organisme
AMBIENT IT
140 AV JEAN LOLIVE93500 PANTINVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
Formation
- Classe virtuelle
- Présentiel
Évaluation
Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.
Prix
Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
882€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
3528€ HT / groupe
4 stagiaires minimum
Public
Chefs de projet, Data Scientists, Développeurs, Architectes…
Pré-requis
Avoir des connaissances de Java ou Python et des notions de calculs statistiques
Objectifs pédagogiques
Maîtriser les concepts fondamentaux de Spark
Savoir intégrer Spark dans un environnement Hadoop
Développer des applications d’analyse en temps réel avec Spark Streaming
Faire de la programmation parallèle avec Spark sur un cluster
Manipuler des données avec Spark SQL
Avoir une première approche du Machine Learning
Programme détaillé
JOUR 1 – COMPRENDRE ET UTILISER SPARK 3
CONTEXTE ET PROBLÉMATIQUE DU BIG DATA – CALCUL DISTRIBUÉ
- Pourquoi Spark ? Les nouveautés de la version 2 & 3
- Installation en standalone, test avec jupyter
- Spark Core (Remplaçant de MapReduce)
- RDD Resilient Distributed Datasets
- PairedRDD
- Spark Context VS Spark Session
- DAG Directed Acyclic Graph
- RDD Objects, DAG Scheduler, Task Scheduler, Worker
- Hadoop et HDFS
- NameNode & DataNode
- core-site, hdfs-site
- Spark sur un Cluster
- Spark Standalone : Cluster Manager, Worker, Executor, Spark Context
- Mesos (Private Cluster), Marathon, YARN
- Structured API
SPARK SQL (REMPLAÇANT DE HIVE)
- SQLContext
- HiveContext
- DataFrames
- Spark Structure, Schéma et partitionnement
JOUR 2 – APPRÉHENDER LE MACHINE LEARNING ET SON INTÉGRATION DANS SPARK 3
INTRODUCTION AU MACHINE LEARNING (ML)
- Apprentissage supervisé
- Apprentissage non-supervisé
- Clustering : KNN, K-mean
- Régression : Arbre de régression
- Classification : Random Forest, SVM, AUC, Courbe ROC
SPARK ML – INTRODUCTION
- Pipelines : Transformer, Estimator, Model
- ML persistence
- MLlib in R & PySpark
DATAVISUALISATION
- Matplotlib
- Seaborn
- Plotly
- Bokeh
GRAPHFRAME
- Présentation du package
JOUR 3 – SPARK 3 EN MODE AVANCÉ : MANIPULER LES DONNÉES À GRANDE ÉCHELLE
SPARK STREAMING
- Structured Streaming API
- StreamingContext
- Static et Dynamic Datasets
- Continuous Aggregations
- Encoders
- Analyse temps-réel d’un fichier de log (Real-Time Analytics)
- Gagner en efficacité grâce à Catalyst Optimizer et Tungsten Engine
- Création d’agents, de sources, channel et sink
- Sérialisation avec Avro RPC
SPARKR
- Présentation du package
DEEP LEARNING PIPELINE
- Présentation du package
- Concept de transfert learning
CONCLUSION
- Lambda VS Kappa architecture