Aller au contenu principal

DOCAPOSTE INSTITUTE : 11. Spark, développer des applications pour le Big Data

Organisme

DOCAPOSTE INSTITUTE
45 BD PAUL VAILLANT COUTURIER
94200 IVRY-SUR-SEINE
Voir toutes ses formationsAutres organismes proposant cette formation

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1102.5€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
4977€ HT / groupe
4 stagiaires minimum

Public

Chefs de projet, Data Scientists, Développeurs, Architectes…

Pré-requis

Avoir des connaissances de Java ou Python et des notions de calculs statistiques

Objectifs pédagogiques

Maîtriser les concepts fondamentaux de Spark

Savoir intégrer Spark dans un environnement Hadoop

Développer des applications d’analyse en temps réel avec Spark Streaming

Faire de la programmation parallèle avec Spark sur un cluster

Manipuler des données avec Spark SQL

Avoir une première approche du Machine Learning

Programme détaillé

La montée en puissance de Scala

  • Introduction à Scala, variables, types de données, flux de contrôle
  • L'interpréteur Scala
  • Collections et méthodes standard (par exemple map())
  • Fonctions, méthodes, fonctions littérales
  • Classe, objet, trait

 

Introduction à Spark

  • Vue d'ensemble, motivations, systèmes Spark
  • Ecosystème de Spark
  • Spark vs. Hadoop
  • Environnements typiques de déploiement et d'utilisation de Spark

 

Les RDD et l'architecture Spark

  • Concepts de RDD, partitions, cycle de vie, évaluation paresseuse
  • Travailler avec les RDD - Créer et transformer (carte, filtre, etc.)
  • Mise en cache - Concepts, type de stockage, directives

 

DataSets/DataFrames et Spark SQL

  • Introduction et utilisation
  • Création et utilisation d'un ensemble de données
  • Travailler avec JSON
  • Utilisation du DataSet DSL
  • Utiliser SQL avec Spark
  • Formats de données
  • Optimisations : Catalyst et Tungsten
  • DataSets vs. DataFrames vs. RDD

 

Créer des applications Spark

  • Aperçu, code de pilote simple, SparkConf
  • Création et utilisation d'un contexte SparkContext/SparkSession
  • Création et fonctionnement des applications
  • Cycle de vie des applications
  • Gestionnaires de clusters
  • Logging et débogage
  • Spark Streaming

 

Vue d'ensemble et principes de base de la diffusion en continu

  • Streaming structuré
  • DStreams (Discretized Steams),
  • Architecture, Stateless, Stateful, et Windowed Transformations
  • API de diffusion en continu (Spark Streaming)
  • Programmation et transformations
  • Caractéristiques et optimisation des performances

 

UI Spark

  • Dépendances étroites vs. larges
  • Réduire au minimum le traitement et le brassage des données
  • Mise en cache - Concepts, type de stockage, lignes directrices
  • Utilisation de la mise en cache
  • Utilisation des variables de diffusion et des accumulateurs

 

Aperçu de Spark GraphX

  • Introduction
  • Construire des graphiques simples
  • API GraphX
  • Exemple de chemin le plus court

 

Aperçu de MLLib

  • Introduction
  • Vecteurs caractéristiques
  • Regroupement / Groupement, K-Means
  • Recommandations
  • Classifications

 

Conclusion

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

Aucun résultat