Aller au contenu principal

AJC FORMATION : 04. Hadoop développement

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Les apprenants réalisent tout au long de la formation des exercices, QCM, mises en situation, TP, TD qui seront corrigés pour faciliter l’acquisition de compétences.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1058.4€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
4567.5€ HT / groupe
4 stagiaires minimum

Public

Développeurs, Chefs de projets, Data-scientists, Architectes…

Pré-requis

Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.


Objectifs pédagogiques

Comprendre l’écosystème Hadoop Cloudera/Hortonworks

Présenter les principes du Framework Hadoop

Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés

Développer des algorithmes parallèles efficaces avec MapReduce

Charger des données non structurées des systèmes HDFS et HBase

Programme détaillé

Introduction

▪ Les fonctionnalités du framework Hadoop

▪ Le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce

▪ Utilisation de yarn pour piloter les jobs mapreduce

 

MapReduce

▪ Principe et objectifs du modèle de programmation MapReduce

▪ Fonctions map() et reduce() Couples (clés, valeurs)

▪ Implémentation par le framework Hadoop

▪ Etude de la collection d'exemples

Travaux pratiques : Création d’un traitement Hadoop MapReduce en traitant une collection de données

 

Programmation

▪ Configuration des jobs, notion de configuration

▪ Les interfaces principales : mapper, reducer,

▪ La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie

▪ Partitioner, outputcollector, codecs, compresseurs

▪ Format des entrées et sorties d'un job MapReduce : InputFormat et OutputFormat

 

Outils complémentaires

▪ Mise en oeuvre du cache distribué

▪ Paramétrage d'un job : ToolRunner, transmission de propriétés

▪ Accès à des systèmes externes : S3, hdfs, har, ...

Travaux pratiques : Création d’un script permettant d’enregistrer des collections de données dans un système de fichier externe

 

Streaming

▪ Définition du streaming map/reduce

▪ Création d'un job map/reduce en Python

▪ Répartition sur la ferme

▪ Avantage et inconvénients

▪ Liaisons avec des systèmes externes

▪ Introduction au pont HadoopR

Travaux pratiques : Lancer et suivre l’exécution et le résultat d’un job en temps réel (Streaming)

 

Pig

▪ Pattern et best practices Map/reduce

▪ Introduction à Pig

▪ Caractéristiques du langage : latin

▪ Les fonctions de bases

▪ Ajouts de fonctions personnalisées

▪ Les UDF

▪ Mise en oeuvre

 

Travaux pratiques : Création et exécution d’un traitement avec UDF

 

Hive

▪ Simplification du requêtage

▪ Syntaxe de base

Travaux pratiques : Création d’une table interne/externe avec Hive

Alimentation des Tables avec des données avec vérification dans HDFS

 

Sécurité en environnement Hadoop

▪ Mécanisme de gestion de l'authentification

 

 

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

Aucun résultat