PLB CONSULTANT : 04. Hadoop développement
Organisme
92300 LEVALLOIS PERRETVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Travaux pratiques. QCM en cours et en fin de formation. Auto-évaluation en début et en fin de formation.
Prix
Public
Développeurs, Chefs de projets, Data-scientists, Architectes…
Pré-requis
Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.
Objectifs pédagogiques
Comprendre l’écosystème Hadoop Cloudera/Hortonworks
Présenter les principes du Framework Hadoop
Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
Développer des algorithmes parallèles efficaces avec MapReduce
Charger des données non structurées des systèmes HDFS et HBase
Programme détaillé
Jour 1
Introduction
Définir les fonctionnalités du framework Hadoop et son écosystème
Identifier le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce
Utilisation de Yarn pour piloter les jobs mapreduce
MapReduce
Déterminer le principe et objectifs du modèle de programmation MapReduce
Données structurées et non-structurées
Utiliser les fonctions map() et reduce()
Couples (clés, valeurs)
Implémentation par le framework Hadoop
Étude d'exemples
Travaux Pratiques
Rédaction d'un premier programme et exécution avec Hadoop
Programmation
Configuration des jobs, notion de configuration
Identifier les interfaces principales : mapper, reducer
Importance de la configuration HDFS sur le découpage en blocs et les mappers
La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie
Gérer le partitionnement des données afin d’équilibrer la charge sur un cluster
Format des entrées et sorties d'un job MapReduce : InputFormat et OutputFormat
Travaux Pratiques
Type personnalisés : création d'un writable spécifique. Utilisation. Contraintes.
Quiz d’évaluation des acquis de la journée
Jour 2
Outils complémentaires
Paramétrage d'un job : ToolRunner, transmission de propriétés
Accès à des systèmes externes : S3, hdfs, har...
Configuration des sorties vers une unité de persistance
Travaux Pratiques
Répartition du job sur la ferme au travers de yarn
Streaming
Définir le streaming map/reduce
Echantillonnage de données
Définition de fenêtre temporelle en regard des données consommées
Liaisons avec des systèmes externes
Travaux Pratiques
Suivi d'un job en streaming
HBase
Présentation des différentes interfaces disponibles
Commandes de base, syntaxe, variables, manipulation des données : create, list, put, scan, get
Désactiver une table ou l'effacer : disable (enable), drop...
Programmation de scripts (shell proposé par Hbase)
Gestion des tables : principe des filtres
Mise en oeuvre de filtres de recherche, paramètres des tables
Présentation des espaces de nommage
Travaux Pratiques
Utilisation de données structurée avec HBase en Map/Reduce
Traitement de données depuis un datalake vers un datalab
Quiz d’évaluation des acquis de la journée
Jour 3
Hive
Simplification du requêtage
Syntaxe de base
Définition d’un mapping de données issus de HBase afin de requêter en SQL
Charger et stocker les données efficacement avec SerDes
Concevoir la disposition des données pour la performance
Automatisation de requêtes sur un flux de données
Travaux Pratiques
Création de tables. Ecriture de requêtes HiveQL
Extraire des données en SQL avec utilisation de fonctions définies par l’utilisateur
Introduction à Spark
Programmation de haut niveau pour le Big Data : RDD
Standard de fait : pour son approche SQL : DataFrame
Echantillonnage de données ou streaming structuré
Big Data sur les graphes : Page ranking
Machine Learning à partir de données structurées (Spark ML)
Travaux Pratiques
Exploitation de données CSV par une interprétation SQL Big Data