AJC FORMATION : 04. Hadoop développement
Organisme
75009 PARIS 9Voir toutes ses formationsAutres organismes proposant cette formation
Durée
21 heuresModalités
Formation
- Classe virtuelle
- Présentiel
Évaluation
Les apprenants réalisent tout au long de la formation des exercices, QCM, mises en situation, TP, TD qui seront corrigés pour faciliter l’acquisition de compétences.
Prix
Public
Développeurs, Chefs de projets, Data-scientists, Architectes…
Pré-requis
Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.
Objectifs pédagogiques
Comprendre l’écosystème Hadoop Cloudera/Hortonworks
Présenter les principes du Framework Hadoop
Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
Développer des algorithmes parallèles efficaces avec MapReduce
Charger des données non structurées des systèmes HDFS et HBase
Programme détaillé
Introduction
▪ Les fonctionnalités du framework Hadoop
▪ Le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce
▪ Utilisation de yarn pour piloter les jobs mapreduce
MapReduce
▪ Principe et objectifs du modèle de programmation MapReduce
▪ Fonctions map() et reduce() Couples (clés, valeurs)
▪ Implémentation par le framework Hadoop
▪ Etude de la collection d'exemples
Travaux pratiques : Création d’un traitement Hadoop MapReduce en traitant une collection de données
Programmation
▪ Configuration des jobs, notion de configuration
▪ Les interfaces principales : mapper, reducer,
▪ La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie
▪ Partitioner, outputcollector, codecs, compresseurs
▪ Format des entrées et sorties d'un job MapReduce : InputFormat et OutputFormat
Outils complémentaires
▪ Mise en oeuvre du cache distribué
▪ Paramétrage d'un job : ToolRunner, transmission de propriétés
▪ Accès à des systèmes externes : S3, hdfs, har, ...
Travaux pratiques : Création d’un script permettant d’enregistrer des collections de données dans un système de fichier externe
Streaming
▪ Définition du streaming map/reduce
▪ Création d'un job map/reduce en Python
▪ Répartition sur la ferme
▪ Avantage et inconvénients
▪ Liaisons avec des systèmes externes
▪ Introduction au pont HadoopR
Travaux pratiques : Lancer et suivre l’exécution et le résultat d’un job en temps réel (Streaming)
Pig
▪ Pattern et best practices Map/reduce
▪ Introduction à Pig
▪ Caractéristiques du langage : latin
▪ Les fonctions de bases
▪ Ajouts de fonctions personnalisées
▪ Les UDF
▪ Mise en oeuvre
Travaux pratiques : Création et exécution d’un traitement avec UDF
Hive
▪ Simplification du requêtage
▪ Syntaxe de base
Travaux pratiques : Création d’une table interne/externe avec Hive
Alimentation des Tables avec des données avec vérification dans HDFS
Sécurité en environnement Hadoop
▪ Mécanisme de gestion de l'authentification