AMBIENT IT : 11. Spark, développer des applications pour le Big Data

Organisme

AMBIENT IT

140 AVENUE JEAN LOLIVE
93500 PANTIN

Voir toutes ses formations Autres organismes proposant cette formation

Contact

JÉRÉMIE BALDY

formation@ambient-it.net
0148100946

Voir les sessions proposées

Durée

21 heures

Modalités

Formation

Classe virtuelle
Présentiel

Évaluation

Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.

Prix

Inter

920,29 € HT / personne

Intra

3 681,14 € HT / groupe

4 stagiaires minimum

Public

Chefs de projet, Data Scientists, Développeurs, Architectes…

Pré-requis

Avoir des connaissances de Java ou Python et des notions de calculs statistiques

Objectifs pédagogiques

Maîtriser les concepts fondamentaux de Spark

Savoir intégrer Spark dans un environnement Hadoop

Développer des applications d’analyse en temps réel avec Spark Streaming

Faire de la programmation parallèle avec Spark sur un cluster

Manipuler des données avec Spark SQL

Avoir une première approche du Machine Learning

Programme détaillé

JOUR 1 – COMPRENDRE ET UTILISER SPARK 3

CONTEXTE ET PROBLÉMATIQUE DU BIG DATA – CALCUL DISTRIBUÉ

Pourquoi Spark ? Les nouveautés de la version 2 & 3
Installation en standalone, test avec jupyter
Spark Core (Remplaçant de MapReduce)
RDD Resilient Distributed Datasets
PairedRDD
Spark Context VS Spark Session
DAG Directed Acyclic Graph
RDD Objects, DAG Scheduler, Task Scheduler, Worker
Hadoop et HDFS
NameNode & DataNode
- core-site, hdfs-site
Spark sur un Cluster
Spark Standalone : Cluster Manager, Worker, Executor, Spark Context
Mesos (Private Cluster), Marathon, YARN
Structured API

SPARK SQL (REMPLAÇANT DE HIVE)

SQLContext
HiveContext
- DataFrames
- Spark Structure, Schéma et partitionnement

JOUR 2 – APPRÉHENDER LE MACHINE LEARNING ET SON INTÉGRATION DANS SPARK 3

INTRODUCTION AU MACHINE LEARNING (ML)

Apprentissage supervisé
Apprentissage non-supervisé
Clustering : KNN, K-mean
Régression : Arbre de régression
Classification : Random Forest, SVM, AUC, Courbe ROC

SPARK ML – INTRODUCTION

Pipelines : Transformer, Estimator, Model
ML persistence
MLlib in R & PySpark

DATAVISUALISATION

Matplotlib
Seaborn
Plotly
Bokeh

GRAPHFRAME

Présentation du package

JOUR 3 – SPARK 3 EN MODE AVANCÉ : MANIPULER LES DONNÉES À GRANDE ÉCHELLE

SPARK STREAMING

Structured Streaming API
StreamingContext
Static et Dynamic Datasets
- Continuous Aggregations
- Encoders
Analyse temps-réel d’un fichier de log (Real-Time Analytics)
- Gagner en efficacité grâce à Catalyst Optimizer et Tungsten Engine
Création d’agents, de sources, channel et sink
Sérialisation avec Avro RPC

SPARKR

Présentation du package

DEEP LEARNING PIPELINE

Présentation du package
Concept de transfert learning

CONCLUSION

Lambda VS Kappa architecture

Sessions

Présentiel

Mixte

En ligne

Classe virtuelle

Inter

Intra

Formation certifiante

Session garantie