AMBIENT IT : 04. Hadoop développement

Organisme

AMBIENT IT

140 AVENUE JEAN LOLIVE
93500 PANTIN

Voir toutes ses formations Autres organismes proposant cette formation

Contact

JÉRÉMIE BALDY

formation@ambient-it.net
0148100946

Voir les sessions proposées

Durée

21 heures

Modalités

Formation

Classe virtuelle
Présentiel

Évaluation

Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.

Prix

Inter

920,29 € HT / personne

Intra

3 681,14 € HT / groupe

4 stagiaires minimum

Public

Développeurs, Chefs de projets, Data-scientists, Architectes…

Pré-requis

Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.

Objectifs pédagogiques

Comprendre l’écosystème Hadoop Cloudera/Hortonworks

Présenter les principes du Framework Hadoop

Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés

Développer des algorithmes parallèles efficaces avec MapReduce

Charger des données non structurées des systèmes HDFS et HBase

Programme détaillé

PRÉSENTATION DU FRAMEWORK HADOOP

Installation d’Hadoop
Objectif du projet Hadoop
Principes de base du framework
Fonctionnalités essentielles
Cas d’utilisation dans les domaines différents
Plateforme Coudera et Hortonworks

MAPREDUCE

Implémentation MapReduce par le framework Hadoop
Principe de programmation MapReduce
Fonction Map() et Reduce()
Utiliser des technologies MapReduce
Développer des algorithmes parallèles efficaces
Créer, personnaliser et déployer des tâches
Synthétiser les données avec MapReduce
Meilleures pratiques de développement des applications MapReduce

L’ÉCOSYSTÈME HADOOP

Vue d’ensemble d’écosystème
Fonctionnalités Hadoop vue d’ensemble
Architecture d’Hadoop
- HDFS
- MapReduce
- FIL
Nœud de nom
Nœud de données
Nœud de nom secondaire
Blocs
Différence entre SGBDR et Hadoop

HADOOP YARN

Utilisation MapReduce à travers Yarn
Utilisation d’un cluster
Gestion de cluster du cloud
Différentes applications sur le même cluster
Composants d’YARN

BASE DE DONNÉES RELATIONNELLE AVEC HADOOP

Qu’est-ce qu’Hive
Syntaxe de base
Intégration de MySQL à Hadoop
Simplifier les requêtes
Extension du HiveQL
User-Defined-Functions (UDF)
Utilisation de Sqoop pour importer des données de MySQL vers HFDS/Hive
Utilisation de Sqoop pour exporter des données de Hadoop vers MySQL

PROGRAMMER HADOOP AVEC PIG

Définition et utilisation
Meilleures pratiques map/reduce
Développement et intégration en Java
Extension avec UDF

HADOOP AVEC SPARK

Pourquoi choisir Spark ?
Architecture de Spark
Composants essentiels
Ensembles de données distribuées résilients (RDD)
- Opérations
- Persistence
- Shared Variables
Fonctions intégrées

STOCKAGE DE DONNÉES SUR HDFS

Système de fichier Hadoop Distributed File System
Charger des données non structurées de HDFS
Différents types de données XML
Paralléliser des calculs sur de larges volumes de données
Fonctionnement en mode distribué

STOCKAGE DE DONNÉES AVEC HBASE

Charger des données non structurées d‘HBase
Fonctionnement de cluster HBase
Fonctionnement indépendant
- HRegionServer
- HMaster
- ZooKeeper
Mécanismes de sécurité en Hadoop
Gestion de l’authentification

HADOOP STREAMING

Configuration d’Hadoop
Définition de MapReduce à Streaming
Langage Python avec Hadoop Streaming
Créer un job MapReduce en Python
Suivie d’un job MapReduce en streaming

Sessions

Mixte

En ligne

Classe virtuelle

Présentiel

Inter

Intra

Formation certifiante

Session garantie