ORSYS : 01. Hadoop - HBase, mise en œuvre et administration
Organisme
92044 PARIS LA DEFENSE CEDEXVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Ce cours, interactif, s’appuie sur de nombreux exercices et travaux pratiques
Prix
Public
Chefs de projet, Administrateurs…
Pré-requis
avoir des connaissances des principes de base Hadoop et des bases de données.
Objectifs pédagogiques
Appréhender l’écosystème Hadoop
Comprendre l’architecture et le fonctionnement de HBase
Identifier les apports d’HBase en termes de stockage distribué des données
Mener à bien l’installation du système
Savoir mettre en place une configuration distribuée
Programme détaillé
Hadoop - HBase, mise en œuvre et administration
A l’issue de la formation, le stagiaire sera capable d’installer et de mettre en œuvre une configuration distribuée de données sous la solution HBase.
Objectifs pédagogiques
- Appréhender l’écosystème Hadoop
- Comprendre l’architecture et le fonctionnement de HBase
- Identifier les apports d’HBase en termes de stockage distribué des données
- Mener à bien l’installation du système
- Savoir mettre en place une configuration distribuée
Déroulement de la formation :
- Présentation de l'écosystème d'Hadoop
- Architecture HBase
- Installation
- Base utilisation : Shell
- Cluster HBase
- Développement
Programme détaillé de la formation :
1. Présentation de l’écosystème d’Hadoop
1/3 jour
- L'architecture Hadoop.
- Description des principaux composants de la plateforme Hadoop.
- Rappels MapReduce.
- Le système de fichiers distribué HDFS (Hadoop Distributed File System) d'Hadoop.
- Présentation de HBase, ses apports, lien avec HDFS.
- Format des données dans HBase.
- Fonctionnalités : failover automatique, sharding, interface avec des jobs MapReduce.
Echanges
Le stockage distribué de données et les apports d’HBase.
2. Architecture HBase
1/3 jour
- Terminologie de HBase : table, région, ligne, famille de colonnes, cellules, espace de nommage...
- Les 3 composants principaux : HMaster, Region Server, Zookeeper.
- Rôle de Zookeeper.
- Le schéma des données. Les différents scénarios de schémas.
3. Installation
1/3 jour
- Installation et configuration dans le fichier conf/hbase-site.xml.
- Installation en mode distribué.
- Gestion des connexions avec hbase shell.
Travaux pratiques
Installation, configuration, test de connexion et interrogations depuis le serveur http intégré.
4. Base utilisation : Shell
1/3 jour
- Les différentes interfaces disponibles.
- Commandes de base, syntaxe, variables, manipulation des données : create, list, put, scan, get.
- Programmation de scripts.
- Activer/Désactiver une table, effacer une table : enable/disable, drop...
- Principe des filtres. Mise en œuvre de filtres de recherche.
- Paramètres des tables.
- Les espaces de nommage.
Travaux pratiques
Ecriture de scripts Hase Schell.
5. Cluster HBase
1/3 jour
- Rappels : préparations et configuration du cluster Hadoop, principe de fonctionnement de HDFS.
- Fonctionnement en mode distribué.
- Fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper).
- Mise en œuvre avec HDFS dans un environnement distribué.
Travaux pratiques
Mise en œuvre des splits dans des tables réparties.
6. Développement
1/3 jour
- Les APIs (REST, Avro, Thrift, Java, Ruby, Spark, ...).
- La surveillance des applications.
- Exemple de programmation d'un client.
- Gestion des tables.
- Map/reduce.
Démonstration
Détail de programmes et lancement