Aller au contenu principal

AMBIENT IT : 04. Hadoop développement

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
882€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
3528€ HT / groupe
4 stagiaires minimum

Public

Développeurs, Chefs de projets, Data-scientists, Architectes…

Pré-requis

Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.


Objectifs pédagogiques

Comprendre l’écosystème Hadoop Cloudera/Hortonworks

Présenter les principes du Framework Hadoop

Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés

Développer des algorithmes parallèles efficaces avec MapReduce

Charger des données non structurées des systèmes HDFS et HBase

Programme détaillé

PRÉSENTATION DU FRAMEWORK HADOOP

  • Installation d’Hadoop
  • Objectif du projet Hadoop
  • Principes de base du framework
  • Fonctionnalités essentielles
  • Cas d’utilisation dans les domaines différents
  • Plateforme Coudera et Hortonworks

 

MAPREDUCE

  • Implémentation MapReduce par le framework Hadoop
  • Principe de programmation MapReduce
  • Fonction Map() et Reduce()
  • Utiliser des technologies MapReduce
  • Développer des algorithmes parallèles efficaces
  • Créer, personnaliser et déployer des tâches
  • Synthétiser les données avec MapReduce
  • Meilleures pratiques de développement des applications MapReduce

 

L’ÉCOSYSTÈME HADOOP

  • Vue d’ensemble d’écosystème
  • Fonctionnalités Hadoop vue d’ensemble
  • Architecture d’Hadoop
    • HDFS
    • MapReduce
    • FIL
  • Nœud de nom
  • Nœud de données
  • Nœud de nom secondaire
  • Blocs
  • Différence entre SGBDR et Hadoop

 

HADOOP YARN

  • Utilisation MapReduce à travers Yarn
  • Utilisation d’un cluster
  • Gestion de cluster du cloud
  • Différentes applications sur le même cluster
  • Composants d’YARN

 

BASE DE DONNÉES RELATIONNELLE AVEC HADOOP

  • Qu’est-ce qu’Hive
  • Syntaxe de base
  • Intégration de MySQL à Hadoop
  • Simplifier les requêtes
  • Extension du HiveQL
  • User-Defined-Functions (UDF)
  • Utilisation de Sqoop pour importer des données de MySQL vers HFDS/Hive
  • Utilisation de Sqoop pour exporter des données de Hadoop vers MySQL

 

PROGRAMMER HADOOP AVEC PIG

  • Définition et utilisation
  • Meilleures pratiques map/reduce
  • Développement et intégration en Java
  • Extension avec UDF

 

HADOOP AVEC SPARK

  • Pourquoi choisir Spark ?
  • Architecture de Spark
  • Composants essentiels
  • Ensembles de données distribuées résilients (RDD)
    • Opérations
    • Persistence
    • Shared Variables
  • Fonctions intégrées

 

STOCKAGE DE DONNÉES SUR HDFS

  • Système de fichier Hadoop Distributed File System
  • Charger des données non structurées de HDFS
  • Différents types de données XML
  • Paralléliser des calculs sur de larges volumes de données
  • Fonctionnement en mode distribué

 

STOCKAGE DE DONNÉES AVEC HBASE

  • Charger des données non structurées d‘HBase
  • Fonctionnement de cluster HBase
  • Fonctionnement indépendant
    • HRegionServer
    • HMaster
    • ZooKeeper
  • Mécanismes de sécurité en Hadoop
  • Gestion de l’authentification

 

HADOOP STREAMING

  • Configuration d’Hadoop
  • Définition de MapReduce à Streaming
  • Langage Python avec Hadoop Streaming
  • Créer un job MapReduce en Python
  • Suivie d’un job MapReduce en streaming

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

Aucun résultat