PLB CONSULTANT : 03. Les Architectures et infrastructures pour le Big Data
Organisme
92300 LEVALLOIS PERRETVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Étude de cas. Travaux pratiques. QCM en cours et en fin de formation. Auto-évaluation en début et en fin de formation.
Prix
Public
Chefs de projets, Architectes, Développeurs, Data Scientists ou toute personne souhaitant connaître les outils pour concevoir une architecture Big Data…
Pré-requis
Avoir une bonne culture générale des systèmes d'information et plus particulièrement, avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation.
Objectifs pédagogiques
Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data
Savoir analyser les difficultés propres à un projet Big Data
Déterminer la nature des données manipulées
Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
Exploiter les architectures Big Data
Mettre en place des socles techniques complets pour des projets Big Data
Programme détaillé
Jour 1
Définition et contexte spécifique des projets Big Data
Les origines du Big Data
Les données au coeur des enjeux
- Explosion du nombre de données
- Liens entre Big Data et IoT (internet des objets)
- Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchés
Compétences et qualités requises pour un architecte Big Data
Organiser la récupération, le stockage et la gestion des données brutes
Les responsabilités de l’architecte
Risques et difficultés rencontrés dans les projets Big Data
Quizz
Étude de cas
Analyse des risques et des difficultés autour d’un projet Big Data
Propriété de la donnée, environnement juridique du traitement, sécurité
Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles
Les données interdites de collecte
Rôle de la CNIL au quotidien
Les accords intra-pays
Les responsabilités des personnes
Problématiques spécifiques au Big Data
Travaux pratiques
Quizz autour de situations concrètes où l’on demande si « telle action devant tel jeu de données » est autorisée par la loi ou non ? »
Impacts des choix technologiques (infrastructure, architecture)
Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart…)
DataLake comme support des architectures BigData ?
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Les performances de Big Table en lecture/écriture
Requêter sur un gros volume de données avec le moteur Big Query
Les database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Les offres techniques des éditeurs Cloud (Azure, GCP, AWS)
Monter sa propre infra Big Data ou s’orienter vers des solutions Cloud ?
Utiliser un DataLake « classique » ou monter une architecture Big Data ?
L’exemple de Hadoop-as-a-Service (stockage, analyse, pipeline, Spark, Machine Learning…)
Impacts détaillés du choix d’une offre Cloud
Méthodes Agiles et DevOps dans le contexte du Big Data
Travaux pratiques
Cas d’usage, Netflix migration vers AWS
Étude détaillée de l’offre d’un éditeur Cloud et de son impact en termes de d’infrastructure et d’architecture (liens avec les sources de données, les transferts de données, les services d’analyses de données, quelles performances dans les opérations de lecture/écriture ? d’analyse de données ? quelle maîtrise de la scalabilité et de la répartition des noeuds ? quels mécanismes de tolérance de panne et de reprise après sinistre ? et plus généralement quelles différences entre administrer un cluster Hadoop sur Amazon EMR par exemple par rapport à « on premise » ?
Jour 2
Architectures distribuées et patterns
Problématiques et enjeux d’une architecture distribuée
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués et liens avec mapreduce
Les bases NoSQL et le calcul distribué
Compléments techniques sur les base NoSQL (clef-valeur, clef-colonne, orientée document, base graphe)
Exemples d’actions au quotidien sous MongoDB (base NoSQL)
La base distribuée de Hadoop au-dessus de HDFS (Hbase)
Les patterns d’architecture (Batch, Streaming, Lambda, Reactive
Quelques exemples en production (Google, Linkedin, Netflix…)
Quizz
Travaux pratiques
Un cahier des charges vous décrit l’organisation et les besoins d’une entreprise.
Vous devez être force de proposition pour l’architecture Big Data préconisée.
Qualité des données (dataquality)
Liens entre infrastructure et qualité des données
Maîtriser les formats de données (CSV, XML, JSPN, Avro, Parquet…)
Le format des messages des API et des web services
Les sources des données dans les architectures Big data
Pas de qualité pas d’analyse
Compatibilité entre qualité des données et les 5V du Big Data ?
Base à chaud, base à froid
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?
Comment un ETL peut rendre « propre » les données ?
L’exemple de Talend pour le Big Data
Analyser les données en les fusionnant avec les données internes
Quizz
Travaux pratiques
Utilisation d’un ETL pour formater un gros volume de données selon certains patterns (modèles)
Jour 3
Mise en oeuvre d’un cluster Hadoop
Vue globale de l’écosystème Hadoop (Hive, HBase, Flume, Spark...)
Installer Hadoop ou s’appuyer sur les offres cloud (AWS, GCP, Azure, OVH) ?
Le système de fichiers distribués (HDFS)
Prise en main des commandes HDFS
Design « type » d’un cluster Hadoop en production
Pré-requis à l’installation de Hadoop
Quelques différences entre les distributions Cloudera et Hortonworks ?
Installation de Hadoop
Gestion des logs
Gestion des autorisations et de la sécurité
Gestion des noeuds du cluster Hadoop
Exemple de problèmes sur un cluster Hadoop (noeud invalide, lenteur, etc.)
Reprise sur échec d’un name node (MRV1)
NameNode high availability (MRV2/YARN)
Les outils de monitoring (Ambari, Cloudera Manager, etc.)
Aspect avancés (taille des blocs, tuning…)
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulers
Quizz
Travaux pratiques
Installation de Hadoop et des composants de base.
Import de données externes (fichiers, bases de données relationnelles) vers HDFS (Sqoop, Flume)
Manipulation des fichiers HDFS en ligne de commande
Ajout de noeuds au cluster et supervision de la charge
Utilisation du benchmark GridMix pour soumettre des jobs au cluster
Architecture et traitements (Spark)
Différences techniques et conceptuelles entre Spark et Hadoop MapReduce
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incident
Configuration d’un noeud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Exemples de programmes MapReduce Spark pour le traitement de gros volume de données
Quizz
Travaux pratiques
Déploiement d’un programme Mapreduce avec Spark afin de valider notre architecture Big Data dans sa globalité et proposer ainsi un socle technique complet et réaliste pour un projet Big Data.
Le programme est fourni et commentés globalement par le formateur, il n’est pas nécessaire d’être développeur.