DOCAPOSTE INSTITUTE : 04. Hadoop développement
Organisme
94200 IVRY-SUR-SEINEVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.
Prix
Public
Développeurs, Chefs de projets, Data-scientists, Architectes…
Pré-requis
Avoir la connaissance d'un langage de programmation objet comme Java et du scripting.
Objectifs pédagogiques
Comprendre l’écosystème Hadoop Cloudera/Hortonworks
Présenter les principes du Framework Hadoop
Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
Développer des algorithmes parallèles efficaces avec MapReduce
Charger des données non structurées des systèmes HDFS et HBase
Programme détaillé
Architecture Hadoop
- Histoire de Hadoop - Facebook, Dynamo, Yahoo, Google
- Le noyau Hadoop
- Architecture YARN, Hadoop 2.0
Système de fichiers distribués Hadoop (HDFS)
- Clusters HDFS - NameNodes, DataNodes et clients
- Métadonnées
- Administration en ligne
MapReduce
- Traitement et génération de grands ensembles de données
- Fonctions Map
- Programmation de MapReduce à l'aide de SQL / Bash / Python
- Traitement parallèle
- Failover
Entreposage de données avec Hive
- Synthétisation des données
- Requêtes ad-hoc
- Analyser de grands ensembles de données
- HiveQL (langage de requête de type SQL)
- Intégration avec les bases de données SQL
- Analyse des n-grammes
Traitement parallèle avec Pig
- Évaluation parallèle
- Interface du langage de requête
- Algèbre relationnelle
Extraction de données avec Mahout
- Regroupement ou Clustering
- Classification
- Filtrage collaboratif par lots
Recherche avec Elastic Search
- Concepts de recherche Elastic
- Installation, importation des données
- Démonstration de l'API, exemples de requêtes
Stockage de données structurées avec HBase
- Big Data : échelle de taille d'un grand ensemble de données.
- Optimiser l'accès en lecture/écriture en temps réel
Base de données multi-master Cassandra
- Le modèle de données de Cassandra
- Cohérence éventuelle
- Quand utiliser Cassandra
Redis
- Modèle de données Redis
- Quand utiliser Redis
MongoDB
- Modèle de données MongoDB
- Installation de MongoDB
- Quand utiliser MongoDB
Kafka
- L'architecture de Kafka
- Installation
- Exemple d'utilisation
- Quand utiliser Kafka
Architecture Lambda
- Concept
- Hadoop + Intégration du traitement des flux
- Exemples d'architecture
Big Data dans le Cloud
(Si le temps le permet)
- Amazon Web Services
- Concepts : modèle de paiement à l'utilisation
- Amazone S3, EC2, EMR
- Plateforme Google Cloud
- Google Big Query