PLB CONSULTANT : 2. Architecture et infrastructure
Organisme
92300 LEVALLOIS PERRETVoir toutes ses formationsAutres organismes proposant cette formation
Durée
28 heuresModalités
Formation
- Classe virtuelle
- Présentiel
Évaluation
Travaux pratiques. Auto-évaluation en début et en fin de formation.
Prix
Public
Architectes systèmes, développeurs, architectes et chefs de projets
Pré-requis
Connaître l'administration Linux (manipulation de fichiers, service, package, etc.)
Objectifs pédagogiques
Pour consulter les objectifs pédagogiques, merci de vous référer au programme détaillé de chaque stage.
Programme détaillé
Objectifs pédagogiques :
Cette formation vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. Concrètement, quels sont les changements par rapport aux standards (serveur, SGBD, système de fichiers, etc.) et qu’apportent concrètement des solutions NoSQL ou des produits comme Hadoop.
Mais quelle que soit votre architecture, se posera le problème de la « qualité » des données. Nous vous montrons donc comment la gérer avec des ETL, le master data management, les bases multiples, etc. Vous disposerez donc d’une vue claire et opérationnelle sur la façon de disposer de données « propres » pour l’analyse des données de votre infrastructure.
Le calcul distribué étant au cœur du Big Data, vous comprenez comment mettre à la disposition des développeurs des architectures distribuées scalables et performantes (HDFS, MapReduce, etc.). Parmi les standards du marché les deux solutions sont Hadoop et Spark. Aussi, vous comprenez leur complémentarité et leur concurrence dans le cadre d’une architecture complète que vous mettez en œuvre. Concrètement, vous apprenez à installer un cluster Hadoop (Cloudera ou Hortonworks au choix) à plusieurs nœuds, à le paramétrer, à le sécuriser, le surveiller (monitoring), et donc, au final, à proposer une infrastructure de qualité aux développeurs et aux analystes.
La formation se termine par la mise en place d’un traitement MapReduce avec Spark pour traiter un flux de données en temps réel.
Définition et contexte spécifique des projets Big Data
Les origines du Big Data
Les données au cœur des enjeux :
- Explosion du nombre de données
- Liens entre Big Data et IoT (internet des objets)
- Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchés
Propriété de la donnée, environnement juridique du traitement, sécurité
Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-pays
Impact des choix technologiques en matière d’infrastructure et d’architecture Big Data
Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart…)
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Big Table/ Big QueryLes database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Conséquences techniques et financières selon les architectures
Architectures distribuées
Problématiques et enjeux d’une architecture distribuée
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués
Les bases NoSQL et le calcul distribué (exemple avec MongoDB)
Qualité des données (dataquality)
Liens entre infrastructure et qualité des données (exemples de problèmes)
Pas de qualité pas d’analyse
Les 4 VBase à chaud, base à froid
Les apports d’un outil de Dataquality
Pourquoi utiliser un ETL ?
Illustration via Talend Data Integration
Analyser les données en les fusionnant avec les données internes
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?
Préparation et configuration du cluster Hadoop
Principes de fonctionnement de Hadoop Distributed File System (HDFS)
Principes de fonctionnement de MapReduce
Design "type" du clusterCritères de choix du matériel
Installation d'une plateforme Hadoop
Type de déploiementInstallation d'Hadoop
Installation d'autres composants (Hive, Pig, HBase, Flume...)
Quelques différences entre les distributions Cloudera, Hortonworks et MapR
Gestion d'un cluster Hadoop
Gestion des nœuds du cluster Hadoop
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulers
Gestion des logsUtiliser un manager
Gestion des données dans HDFS
Import de données externes (fichiers, bases de données relationnelles) vers HDFS
Manipulation des fichiers HDFS
Configuration avancée
Gestion des autorisations et de la sécurité
Reprise sur échec d'un name node (MRV1)
NameNode high availability (MRV2/YARN)
Monitoring et optimisation Tuning
Monitoring (Ambari, Ganglia...)
Benchmarking/profiling d'un cluster
Les outils Apache GridMix, Vaaidya
Choisir la taille des blocs
Autres options de tuning (utilisation de la compression, configuration mémoire...)
Architecture Hadoop avec Spark
La philosophie de Spark par rapport à Hadoop
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incident
MapReduce Spark
Maîtriser le fonctionnement de Map
Reduce Spark
Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Écriture de MapReduce Spark pour la résolution de problèmes concrets