AMBIENT IT : 04. Hadoop développement
Organisme
93500 PANTINVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.
Prix
Public
Développeurs, Chefs de projets, Data-scientists, Architectes…
Pré-requis
Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.
Objectifs pédagogiques
Comprendre l’écosystème Hadoop Cloudera/Hortonworks
Présenter les principes du Framework Hadoop
Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
Développer des algorithmes parallèles efficaces avec MapReduce
Charger des données non structurées des systèmes HDFS et HBase
Programme détaillé
PRÉSENTATION DU FRAMEWORK HADOOP
- Installation d’Hadoop
- Objectif du projet Hadoop
- Principes de base du framework
- Fonctionnalités essentielles
- Cas d’utilisation dans les domaines différents
- Plateforme Coudera et Hortonworks
MAPREDUCE
- Implémentation MapReduce par le framework Hadoop
- Principe de programmation MapReduce
- Fonction Map() et Reduce()
- Utiliser des technologies MapReduce
- Développer des algorithmes parallèles efficaces
- Créer, personnaliser et déployer des tâches
- Synthétiser les données avec MapReduce
- Meilleures pratiques de développement des applications MapReduce
L’ÉCOSYSTÈME HADOOP
- Vue d’ensemble d’écosystème
- Fonctionnalités Hadoop vue d’ensemble
- Architecture d’Hadoop
- HDFS
- MapReduce
- FIL
- Nœud de nom
- Nœud de données
- Nœud de nom secondaire
- Blocs
- Différence entre SGBDR et Hadoop
HADOOP YARN
- Utilisation MapReduce à travers Yarn
- Utilisation d’un cluster
- Gestion de cluster du cloud
- Différentes applications sur le même cluster
- Composants d’YARN
BASE DE DONNÉES RELATIONNELLE AVEC HADOOP
- Qu’est-ce qu’Hive
- Syntaxe de base
- Intégration de MySQL à Hadoop
- Simplifier les requêtes
- Extension du HiveQL
- User-Defined-Functions (UDF)
- Utilisation de Sqoop pour importer des données de MySQL vers HFDS/Hive
- Utilisation de Sqoop pour exporter des données de Hadoop vers MySQL
PROGRAMMER HADOOP AVEC PIG
- Définition et utilisation
- Meilleures pratiques map/reduce
- Développement et intégration en Java
- Extension avec UDF
HADOOP AVEC SPARK
- Pourquoi choisir Spark ?
- Architecture de Spark
- Composants essentiels
- Ensembles de données distribuées résilients (RDD)
- Opérations
- Persistence
- Shared Variables
- Fonctions intégrées
STOCKAGE DE DONNÉES SUR HDFS
- Système de fichier Hadoop Distributed File System
- Charger des données non structurées de HDFS
- Différents types de données XML
- Paralléliser des calculs sur de larges volumes de données
- Fonctionnement en mode distribué
STOCKAGE DE DONNÉES AVEC HBASE
- Charger des données non structurées d‘HBase
- Fonctionnement de cluster HBase
- Fonctionnement indépendant
- HRegionServer
- HMaster
- ZooKeeper
- Mécanismes de sécurité en Hadoop
- Gestion de l’authentification
HADOOP STREAMING
- Configuration d’Hadoop
- Définition de MapReduce à Streaming
- Langage Python avec Hadoop Streaming
- Créer un job MapReduce en Python
- Suivie d’un job MapReduce en streaming