Aller au contenu principal

ORSYS : 11. Spark, développer des applications pour le Big Data

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en pratique des notions vues en formation à l'aide du langage Java

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1102.5€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
4961.25€ HT / groupe
4 stagiaires minimum

Public

Chefs de projet, Data Scientists, Développeurs, Architectes…

Pré-requis

Avoir des connaissances de Java ou Python et des notions de calculs statistiques

Objectifs pédagogiques

Maîtriser les concepts fondamentaux de Spark

Savoir intégrer Spark dans un environnement Hadoop

Développer des applications d’analyse en temps réel avec Spark Streaming

Faire de la programmation parallèle avec Spark sur un cluster

Manipuler des données avec Spark SQL

Avoir une première approche du Machine Learning

Programme détaillé

Spark Java, développer des applications pour le Big Data

Souvent présenté comme le successeur de Hadoop, SPARK simplifie la programmation des traitements BigData permettant l'utilisation de scala, Python ou Java . Cette formation apprendra aux programmeurs à traiter un flux de données en temps réel et à effectuer des traitements batch (du SQL jusqu'au Machine Learning).

Objectifs pédagogiques

  1. Maîtriser les concepts fondamentaux de Spark
  2. Développer des applications avec Spark Streaming
  3. Mettre en œuvre un cluster Spark
  4. Exploiter des données avec Spark SQL
  5. Avoir une première approche du Machine Learning

 

Déroulement de la formation :

  1. Présentation d'Apache Spark
  2. Programmer avec les Resilient Distributed Dataset (RDD)
  3. Manipuler des données structurées avec Spark SQL
  4. Spark sur un cluster
  5. Analyser en temps réel avec Spark Streaming
  6. Manipuler des graphes avec GraphX
  7. Machine Learning avec Spark

 

Programme détaillé de la formation :

 

1. Présentation d'Apache Spark

1/4 jour

- Historique du Framework.

- Les différentes versions de Spark (Scala, Python et Java).

- Comparaison avec l'environnement Apache Hadoop.

- Les différents modules de Spark.

Travaux pratiques

Installation et configuration de Spark. Exécution d'un premier exemple avec le comptage de mots.

 

 2. Programmer avec les Resilient Distributed Dataset (RDD)

3/4 jour

- Présentation des RDD.

- Créer, manipuler et réutiliser des RDD.

- Accumulateurs et variables broadcastées.

- Utiliser des partitions.

Travaux pratiques

Manipulation de différents Datasets à l'aide de RDD et utilisation de l'API fournie par Spark.

 

 3. Manipuler des données structurées avec Spark SQL

1/2 jour

- SQL, DataFrames et Datasets.

- Les différents types de sources de données.

- Interopérabilité avec les RDD.

- Performance de Spark SQL.

- JDBC/ODBC server et Spark SQL CLI.

Travaux pratiques

Manipulation de Datasets via des requêtes SQL. Connexion avec une base externe via JDBC.

 

 4. Spark sur un cluster

1/2 jour

- Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.

- Configurer un cluster en mode Standalone.

- Packager une application avec ses dépendances.

- Déployer des applications avec Spark-submit.

- Dimensionner un cluster.

Travaux pratiques

Mise en place d'un cluster Spark.

 

 5. Analyser en temps réel avec Spark Streaming

1/2 jour

- Principe de fonctionnement.

- Présentation des Discretized Streams (DStreams).

- Les différents types de sources.

- Manipulation de l'API.

- Comparaison avec Apache Storm.

Travaux pratiques

Consommation de logs avec Spark Streaming.

 

 6. Manipuler des graphes avec GraphX

1/4 jour

- Présentation de GraphX.

- Les différentes opérations.

- Créer des graphes.

- Vertex and Edge RDD.

- Présentation de différents algorithmes.

Travaux pratiques

Manipulation de l'API GraphX à travers différents exemples.

 

 7. Machine Learning avec Spark

1/4 jour

- Introduction au Machine Learning.

- Les différentes classes d'algorithmes.

- Présentation de SparkML et MLlib.

- Implémentations des différents algorithmes dans MLlib.

Travaux pratiques

Utilisation de SparkML et MLlib.

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.