DOCAPOSTE INSTITUTE : 03. Les Architectures et infrastructures pour le Big Data
Organisme
94200 IVRY-SUR-SEINEVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.
Prix
Public
Chefs de projets, Architectes, Développeurs, Data Scientists ou toute personne souhaitant connaître les outils pour concevoir une architecture Big Data…
Pré-requis
Avoir une bonne culture générale des systèmes d'information et plus particulièrement, avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation.
Objectifs pédagogiques
Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data
Savoir analyser les difficultés propres à un projet Big Data
Déterminer la nature des données manipulées
Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
Exploiter les architectures Big Data
Mettre en place des socles techniques complets pour des projets Big Data
Programme détaillé
Définition et contexte spécifique des projets Big Data
- Origines du Big Data
- Les données au cœur des sujets : explosion des données, connexions Big Data et IoT (Internet des objets), données structurées, données semi-structurées, données non structurées et données structurées
- Les limites des architecturales actuelles
- Les définitions des systèmes Big Data
- Principes de fonctionnement
- Différentes offres de marché
Propriété des données, environnement de traitement légal et sécurité
- Sécurité éthique et questions juridiques
- Données personnelles
- Informations confidentielles, interdictions
- Réglementation des Données Numériques par la CNIL
- Accords Nationaux
Impact des choix technologiques liés à l'infrastructure et à l'architecture Big Data
- Architectures décisionnelles "traditionnelles" (Datastores, Data Warehouses, Data Marts, etc.)
- Philosophie des bases NoSQL : Column Family, orienté document, clé-valeur, diagramme
- Plusieurs acteurs (MongoDB, Cassandra, etc.)
- Big Table / Big Query
- Moteur de base de données (Exadata)
- Base de données vectorielle (Sybase IQ)
- Hadoop, système entièrement autonome ?
- Impacts économiques
Mise en œuvre et élaboration d'une stratégie dédiée au Big Data
- Besoins en sujet de Big Data
- Atteindre les impartiaux cabinet au bon droit des conjoncture
- Outils du marché dédiés au Big Data
- Répondre aux attentes d'un collaborateur
Architectures distribuées
- Problématiques et objectifs
- Des conjoncture cohérentes, disponibles et tolérantes aux pannes ?
- Les architectures lourdement parallèles
- L'ouverture aux traitements complexes (datamining, intention learning, etc.)
- Paradigmes de calculs distribués
- Les bases NoSQL et le calcul distribué
- Qualité des données (Dataquality)
- Liens entre infrastructure et qualité des données
- Pas de qualité, pas d'analyse
- Les 4 V
- Bases à chaud et à froid
- Les apports d'un outil de Dataquality
- Pourquoi utiliser un ETL ?
- Illustration via Talend Data Integration
- Analyser les données en les fusionnant avec les données internes
- Le Master Data Management (MDM)
Préparation et visage du cluster Hadoop
- Principes de fonctionnement de Hadoop Distributed File System (HDFS)
- Principes de fonctionnement de MapReduce
- Design « type » du cluster
Installation d'une plateforme Hadoop
- Type de déploiement
- Installation d'Hadoop
- Installation de divers composants (Hive, Pig, HBase, Flume…)
- Différences parmi les distributions Cloudera, Hortonworks et MapR
Gestion d'un cluster Hadoop
- Gestion des nœuds du cluster Hadoop
- Les TaskTracker, JobTracker dans MapReduce
- Gestion des services via les schedulers
- Gestion des logs
Gestion des données pour HDFS
- Import de conjoncture externes (fichiers, bases de conjoncture relationnelles) enthousiasme HDFS
- Manipulation des fichiers HDFS
Configuration avancée
- Gestion des autorisations et de la sécurité
- Reprise sur échec d'un name node (MRV1)
- Haute disponibilité d'un NameNode (MRV2/YARN)
Monitoring et optimisation
- Monitoring (Ambari, Ganglia…)
- Benchmarking/profiling d'un cluster
- Les outils Apache GridMix, Vaidya
- Taille des blocs
- Autres options de tuning (maniement de la compression, visage mémoire…)