DOCAPOSTE INSTITUTE : 11. Spark, développer des applications pour le Big Data
Organisme
94200 IVRY-SUR-SEINEVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.
Prix
Public
Chefs de projet, Data Scientists, Développeurs, Architectes…
Pré-requis
Avoir des connaissances de Java ou Python et des notions de calculs statistiques
Objectifs pédagogiques
Maîtriser les concepts fondamentaux de Spark
Savoir intégrer Spark dans un environnement Hadoop
Développer des applications d’analyse en temps réel avec Spark Streaming
Faire de la programmation parallèle avec Spark sur un cluster
Manipuler des données avec Spark SQL
Avoir une première approche du Machine Learning
Programme détaillé
La montée en puissance de Scala
- Introduction à Scala, variables, types de données, flux de contrôle
- L'interpréteur Scala
- Collections et méthodes standard (par exemple map())
- Fonctions, méthodes, fonctions littérales
- Classe, objet, trait
Introduction à Spark
- Vue d'ensemble, motivations, systèmes Spark
- Ecosystème de Spark
- Spark vs. Hadoop
- Environnements typiques de déploiement et d'utilisation de Spark
Les RDD et l'architecture Spark
- Concepts de RDD, partitions, cycle de vie, évaluation paresseuse
- Travailler avec les RDD - Créer et transformer (carte, filtre, etc.)
- Mise en cache - Concepts, type de stockage, directives
DataSets/DataFrames et Spark SQL
- Introduction et utilisation
- Création et utilisation d'un ensemble de données
- Travailler avec JSON
- Utilisation du DataSet DSL
- Utiliser SQL avec Spark
- Formats de données
- Optimisations : Catalyst et Tungsten
- DataSets vs. DataFrames vs. RDD
Créer des applications Spark
- Aperçu, code de pilote simple, SparkConf
- Création et utilisation d'un contexte SparkContext/SparkSession
- Création et fonctionnement des applications
- Cycle de vie des applications
- Gestionnaires de clusters
- Logging et débogage
- Spark Streaming
Vue d'ensemble et principes de base de la diffusion en continu
- Streaming structuré
- DStreams (Discretized Steams),
- Architecture, Stateless, Stateful, et Windowed Transformations
- API de diffusion en continu (Spark Streaming)
- Programmation et transformations
- Caractéristiques et optimisation des performances
UI Spark
- Dépendances étroites vs. larges
- Réduire au minimum le traitement et le brassage des données
- Mise en cache - Concepts, type de stockage, lignes directrices
- Utilisation de la mise en cache
- Utilisation des variables de diffusion et des accumulateurs
Aperçu de Spark GraphX
- Introduction
- Construire des graphiques simples
- API GraphX
- Exemple de chemin le plus court
Aperçu de MLLib
- Introduction
- Vecteurs caractéristiques
- Regroupement / Groupement, K-Means
- Recommandations
- Classifications
Conclusion