DOCAPOSTE INSTITUTE : 11. Spark, développer des applications pour le Big Data

Organisme

DOCAPOSTE INSTITUTE

45 BD PAUL VAILLANT COUTURIER
94200 IVRY-SUR-SEINE

Voir toutes ses formations Autres organismes proposant cette formation

Contact

SERVICE COMMERCIAL DOCAPOSTE INSTITUTE

hello.institute@docaposte.fr
0611071851

Voir les sessions proposées

Durée

21 heures

Modalités

Formation

Classe virtuelle
Présentiel

Évaluation

Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.

Prix

Inter

1 150,36 € HT / personne

Intra

5 193,04 € HT / groupe

4 stagiaires minimum

Public

Chefs de projet, Data Scientists, Développeurs, Architectes…

Pré-requis

Avoir des connaissances de Java ou Python et des notions de calculs statistiques

Objectifs pédagogiques

Maîtriser les concepts fondamentaux de Spark

Savoir intégrer Spark dans un environnement Hadoop

Développer des applications d’analyse en temps réel avec Spark Streaming

Faire de la programmation parallèle avec Spark sur un cluster

Manipuler des données avec Spark SQL

Avoir une première approche du Machine Learning

Programme détaillé

La montée en puissance de Scala

Introduction à Scala, variables, types de données, flux de contrôle
L'interpréteur Scala
Collections et méthodes standard (par exemple map())
Fonctions, méthodes, fonctions littérales
Classe, objet, trait

Introduction à Spark

Vue d'ensemble, motivations, systèmes Spark
Ecosystème de Spark
Spark vs. Hadoop
Environnements typiques de déploiement et d'utilisation de Spark

Les RDD et l'architecture Spark

Concepts de RDD, partitions, cycle de vie, évaluation paresseuse
Travailler avec les RDD - Créer et transformer (carte, filtre, etc.)
Mise en cache - Concepts, type de stockage, directives

DataSets/DataFrames et Spark SQL

Introduction et utilisation
Création et utilisation d'un ensemble de données
Travailler avec JSON
Utilisation du DataSet DSL
Utiliser SQL avec Spark
Formats de données
Optimisations : Catalyst et Tungsten
DataSets vs. DataFrames vs. RDD

Créer des applications Spark

Aperçu, code de pilote simple, SparkConf
Création et utilisation d'un contexte SparkContext/SparkSession
Création et fonctionnement des applications
Cycle de vie des applications
Gestionnaires de clusters
Logging et débogage
Spark Streaming

Vue d'ensemble et principes de base de la diffusion en continu

Streaming structuré
DStreams (Discretized Steams),
Architecture, Stateless, Stateful, et Windowed Transformations
API de diffusion en continu (Spark Streaming)
Programmation et transformations
Caractéristiques et optimisation des performances

UI Spark

Dépendances étroites vs. larges
Réduire au minimum le traitement et le brassage des données
Mise en cache - Concepts, type de stockage, lignes directrices
Utilisation de la mise en cache
Utilisation des variables de diffusion et des accumulateurs

Aperçu de Spark GraphX

Introduction
Construire des graphiques simples
API GraphX
Exemple de chemin le plus court

Aperçu de MLLib

Introduction
Vecteurs caractéristiques
Regroupement / Groupement, K-Means
Recommandations
Classifications

Conclusion

Sessions

Présentiel

Mixte

En ligne

Classe virtuelle

Inter

Intra

Formation certifiante

Session garantie