DOCAPOSTE INSTITUTE : 03. Les Architectures et infrastructures pour le Big Data

Organisme

DOCAPOSTE INSTITUTE

45 BD PAUL VAILLANT COUTURIER
94200 IVRY-SUR-SEINE

Voir toutes ses formations Autres organismes proposant cette formation

Contact

SERVICE COMMERCIAL DOCAPOSTE INSTITUTE

hello.institute@docaposte.fr
0611071851

Voir les sessions proposées

Durée

21 heures

Modalités

Formation

Classe virtuelle
Présentiel

Évaluation

Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.

Prix

Inter

1 081,34 € HT / personne

Intra

4 437,09 € HT / groupe

4 stagiaires minimum

Public

Chefs de projets, Architectes, Développeurs, Data Scientists ou toute personne souhaitant connaître les outils pour concevoir une architecture Big Data…

Pré-requis

Avoir une bonne culture générale des systèmes d'information et plus particulièrement, avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation.

Objectifs pédagogiques

Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data

Savoir analyser les difficultés propres à un projet Big Data

Déterminer la nature des données manipulées

Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques

Exploiter les architectures Big Data

Mettre en place des socles techniques complets pour des projets Big Data

Programme détaillé

Définition et contexte spécifique des projets Big Data

Origines du Big Data
Les données au cœur des sujets : explosion des données, connexions Big Data et IoT (Internet des objets), données structurées, données semi-structurées, données non structurées et données structurées
Les limites des architecturales actuelles
Les définitions des systèmes Big Data
Principes de fonctionnement
Différentes offres de marché

Propriété des données, environnement de traitement légal et sécurité

Sécurité éthique et questions juridiques
Données personnelles
Informations confidentielles, interdictions
Réglementation des Données Numériques par la CNIL
Accords Nationaux

Impact des choix technologiques liés à l'infrastructure et à l'architecture Big Data

Architectures décisionnelles "traditionnelles" (Datastores, Data Warehouses, Data Marts, etc.)
Philosophie des bases NoSQL : Column Family, orienté document, clé-valeur, diagramme
Plusieurs acteurs (MongoDB, Cassandra, etc.)
Big Table / Big Query
Moteur de base de données (Exadata)
Base de données vectorielle (Sybase IQ)
Hadoop, système entièrement autonome ?
Impacts économiques

Mise en œuvre et élaboration d'une stratégie dédiée au Big Data

Besoins en sujet de Big Data
Atteindre les impartiaux cabinet au bon droit des conjoncture
Outils du marché dédiés au Big Data
Répondre aux attentes d'un collaborateur

Architectures distribuées

Problématiques et objectifs
Des conjoncture cohérentes, disponibles et tolérantes aux pannes ?
Les architectures lourdement parallèles
L'ouverture aux traitements complexes (datamining, intention learning, etc.)
Paradigmes de calculs distribués
Les bases NoSQL et le calcul distribué
Qualité des données (Dataquality)
Liens entre infrastructure et qualité des données
Pas de qualité, pas d'analyse
Les 4 V
Bases à chaud et à froid
Les apports d'un outil de Dataquality
Pourquoi utiliser un ETL ?
Illustration via Talend Data Integration
Analyser les données en les fusionnant avec les données internes
Le Master Data Management (MDM)

Préparation et visage du cluster Hadoop

Principes de fonctionnement de Hadoop Distributed File System (HDFS)
Principes de fonctionnement de MapReduce
Design « type » du cluster

Installation d'une plateforme Hadoop

Type de déploiement
Installation d'Hadoop
Installation de divers composants (Hive, Pig, HBase, Flume…)
Différences parmi les distributions Cloudera, Hortonworks et MapR

Gestion d'un cluster Hadoop

Gestion des nœuds du cluster Hadoop
Les TaskTracker, JobTracker dans MapReduce
Gestion des services via les schedulers
Gestion des logs

Gestion des données pour HDFS

Import de conjoncture externes (fichiers, bases de conjoncture relationnelles) enthousiasme HDFS
Manipulation des fichiers HDFS

Configuration avancée

Gestion des autorisations et de la sécurité
Reprise sur échec d'un name node (MRV1)
Haute disponibilité d'un NameNode (MRV2/YARN)

Monitoring et optimisation

Monitoring (Ambari, Ganglia…)
Benchmarking/profiling d'un cluster
Les outils Apache GridMix, Vaidya
Taille des blocs
Autres options de tuning (maniement de la compression, visage mémoire…)

Sessions

Mixte

En ligne

Classe virtuelle

Présentiel

Inter

Intra

Formation certifiante

Session garantie