Aller au contenu principal

PLB CONSULTANT : 04. Hadoop développement

Organisme

PLB CONSULTANT
3-5 RUE MAURICE RAVEL
92300 LEVALLOIS PERRET
Voir toutes ses formationsAutres organismes proposant cette formation

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Travaux pratiques. QCM en cours et en fin de formation. Auto-évaluation en début et en fin de formation.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
882€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
3528€ HT / groupe
4 stagiaires minimum

Public

Développeurs, Chefs de projets, Data-scientists, Architectes…

Pré-requis

Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.


Objectifs pédagogiques

Comprendre l’écosystème Hadoop Cloudera/Hortonworks

Présenter les principes du Framework Hadoop

Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés

Développer des algorithmes parallèles efficaces avec MapReduce

Charger des données non structurées des systèmes HDFS et HBase

Programme détaillé

Jour 1

Introduction

Définir les fonctionnalités du framework Hadoop et son écosystème

Identifier le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce

Utilisation de Yarn pour piloter les jobs mapreduce

MapReduce

Déterminer le principe et objectifs du modèle de programmation MapReduce

Données structurées et non-structurées

Utiliser les fonctions map() et reduce()

Couples (clés, valeurs)

Implémentation par le framework Hadoop

Étude d'exemples

Travaux Pratiques

Rédaction d'un premier programme et exécution avec Hadoop

Programmation

Configuration des jobs, notion de configuration

Identifier les interfaces principales : mapper, reducer

Importance de la configuration HDFS sur le découpage en blocs et les mappers

La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie

Gérer le partitionnement des données afin d’équilibrer la charge sur un cluster

Format des entrées et sorties d'un job MapReduce : InputFormat et OutputFormat

Travaux Pratiques

Type personnalisés : création d'un writable spécifique. Utilisation. Contraintes.

 

Quiz d’évaluation des acquis de la journée

 

Jour 2

Outils complémentaires

Paramétrage d'un job : ToolRunner, transmission de propriétés

Accès à des systèmes externes : S3, hdfs, har...

Configuration des sorties vers une unité de persistance

Travaux Pratiques

Répartition du job sur la ferme au travers de yarn

Streaming

Définir le streaming map/reduce

Echantillonnage de données

Définition de fenêtre temporelle en regard des données consommées

Liaisons avec des systèmes externes

Travaux Pratiques

Suivi d'un job en streaming

HBase

Présentation des différentes interfaces disponibles

Commandes de base, syntaxe, variables, manipulation des données : create, list, put, scan, get

Désactiver une table ou l'effacer : disable (enable), drop...

Programmation de scripts (shell proposé par Hbase)

Gestion des tables : principe des filtres

Mise en oeuvre de filtres de recherche, paramètres des tables

Présentation des espaces de nommage

Travaux Pratiques

Utilisation de données structurée avec HBase en Map/Reduce

Traitement de données depuis un datalake vers un datalab

 

Quiz d’évaluation des acquis de la journée

 

Jour 3

Hive

Simplification du requêtage

Syntaxe de base

Définition d’un mapping de données issus de HBase afin de requêter en SQL

Charger et stocker les données efficacement avec SerDes

Concevoir la disposition des données pour la performance

Automatisation de requêtes sur un flux de données

Travaux Pratiques

Création de tables. Ecriture de requêtes HiveQL

Extraire des données en SQL avec utilisation de fonctions définies par l’utilisateur

Introduction à Spark

Programmation de haut niveau pour le Big Data : RDD

Standard de fait : pour son approche SQL : DataFrame

Echantillonnage de données ou streaming structuré

Big Data sur les graphes : Page ranking

Machine Learning à partir de données structurées (Spark ML)

Travaux Pratiques

Exploitation de données CSV par une interprétation SQL Big Data

 

Quiz Final d’évaluation des acquis de la formation

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

Aucun résultat