Aller au contenu principal

PLB CONSULTANT : 03. Les Architectures et infrastructures pour le Big Data

Organisme

PLB CONSULTANT
3-5 RUE MAURICE RAVEL
92300 LEVALLOIS PERRET
Voir toutes ses formationsAutres organismes proposant cette formation

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Étude de cas. Travaux pratiques. QCM en cours et en fin de formation. Auto-évaluation en début et en fin de formation.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
882€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
3528€ HT / groupe
4 stagiaires minimum

Public

Chefs de projets, Architectes, Développeurs, Data Scientists ou toute personne souhaitant connaître les outils pour concevoir une architecture Big Data…

Pré-requis

Avoir une bonne culture générale des systèmes d'information et plus particulièrement, avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation.

Objectifs pédagogiques

Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data

Savoir analyser les difficultés propres à un projet Big Data

Déterminer la nature des données manipulées

Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques

Exploiter les architectures Big Data

Mettre en place des socles techniques complets pour des projets Big Data

Programme détaillé

Jour 1

Définition et contexte spécifique des projets Big Data

Les origines du Big Data

Les données au coeur des enjeux

- Explosion du nombre de données

- Liens entre Big Data et IoT (internet des objets)

- Données structurées, semi-structurées, non structurées

Les limites des architectures actuelles

Définition d’un système Big Data

Principes de fonctionnement

Les différentes offres des marchés

Compétences et qualités requises pour un architecte Big Data

Organiser la récupération, le stockage et la gestion des données brutes

Les responsabilités de l’architecte

Risques et difficultés rencontrés dans les projets Big Data

Quizz
Étude de cas

Analyse des risques et des difficultés autour d’un projet Big Data

Propriété de la donnée, environnement juridique du traitement, sécurité

Sécurité éthique et enjeux juridiques

Les données personnelles

Les informations sensibles

Les données interdites de collecte

Rôle de la CNIL au quotidien

Les accords intra-pays

Les responsabilités des personnes

Problématiques spécifiques au Big Data

Travaux pratiques

Quizz autour de situations concrètes où l’on demande si « telle action devant tel jeu de données » est autorisée par la loi ou non ? »

Impacts des choix technologiques (infrastructure, architecture)

Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart…)

DataLake comme support des architectures BigData ?

Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe

Quelques acteurs (MongoDB, Cassandra…)

Les performances de Big Table en lecture/écriture

Requêter sur un gros volume de données avec le moteur Big Query

Les database machine (Exadata)

Les bases de données vectorielles (Sybase IQ)

Hadoop un système totalement autonome ?

Les offres techniques des éditeurs Cloud (Azure, GCP, AWS)

Monter sa propre infra Big Data ou s’orienter vers des solutions Cloud ?

Utiliser un DataLake « classique » ou monter une architecture Big Data ?

L’exemple de Hadoop-as-a-Service (stockage, analyse, pipeline, Spark, Machine Learning…)

Impacts détaillés du choix d’une offre Cloud

Méthodes Agiles et DevOps dans le contexte du Big Data

Travaux pratiques

Cas d’usage, Netflix migration vers AWS

Étude détaillée de l’offre d’un éditeur Cloud et de son impact en termes de d’infrastructure et d’architecture (liens avec les sources de données, les transferts de données, les services d’analyses de données, quelles performances dans les opérations de lecture/écriture ? d’analyse de données ? quelle maîtrise de la scalabilité et de la répartition des noeuds ? quels mécanismes de tolérance de panne et de reprise après sinistre ? et plus généralement quelles différences entre administrer un cluster Hadoop sur Amazon EMR par exemple par rapport à « on premise » ?

 

Jour 2

Architectures distribuées et patterns

Problématiques et enjeux d’une architecture distribuée

Des données cohérentes, disponibles et tolérantes aux pannes ?

Les architectures massivement parallèles

L’ouverture aux traitements complexes (datamining, machine learning, etc.)

Paradigmes de calculs distribués et liens avec mapreduce

Les bases NoSQL et le calcul distribué

Compléments techniques sur les base NoSQL (clef-valeur, clef-colonne, orientée document, base graphe)

Exemples d’actions au quotidien sous MongoDB (base NoSQL)

La base distribuée de Hadoop au-dessus de HDFS (Hbase)

Les patterns d’architecture (Batch, Streaming, Lambda, Reactive

Quelques exemples en production (Google, Linkedin, Netflix…)

Quizz
Travaux pratiques

Un cahier des charges vous décrit l’organisation et les besoins d’une entreprise.

Vous devez être force de proposition pour l’architecture Big Data préconisée.

Qualité des données (dataquality)

Liens entre infrastructure et qualité des données

Maîtriser les formats de données (CSV, XML, JSPN, Avro, Parquet…)

Le format des messages des API et des web services

Les sources des données dans les architectures Big data

Pas de qualité pas d’analyse

Compatibilité entre qualité des données et les 5V du Big Data ?

Base à chaud, base à froid

Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?

Comment un ETL peut rendre « propre » les données ?

L’exemple de Talend pour le Big Data

Analyser les données en les fusionnant avec les données internes

Quizz
Travaux pratiques

Utilisation d’un ETL pour formater un gros volume de données selon certains patterns (modèles)

 

Jour 3

Mise en oeuvre d’un cluster Hadoop

Vue globale de l’écosystème Hadoop (Hive, HBase, Flume, Spark...)

Installer Hadoop ou s’appuyer sur les offres cloud (AWS, GCP, Azure, OVH) ?

Le système de fichiers distribués (HDFS)

Prise en main des commandes HDFS

Design « type » d’un cluster Hadoop en production

Pré-requis à l’installation de Hadoop

Quelques différences entre les distributions Cloudera et Hortonworks ?

Installation de Hadoop

Gestion des logs

Gestion des autorisations et de la sécurité

Gestion des noeuds du cluster Hadoop

Exemple de problèmes sur un cluster Hadoop (noeud invalide, lenteur, etc.)

Reprise sur échec d’un name node (MRV1)

NameNode high availability (MRV2/YARN)

Les outils de monitoring (Ambari, Cloudera Manager, etc.)

Aspect avancés (taille des blocs, tuning…)

Les TaskTracker, JobTracker pour MapReduce

Gestion des tâches via les schedulers

Quizz
Travaux pratiques

Installation de Hadoop et des composants de base.

Import de données externes (fichiers, bases de données relationnelles) vers HDFS (Sqoop, Flume)

Manipulation des fichiers HDFS en ligne de commande

Ajout de noeuds au cluster et supervision de la charge

Utilisation du benchmark GridMix pour soumettre des jobs au cluster

Architecture et traitements (Spark)

Différences techniques et conceptuelles entre Spark et Hadoop MapReduce

Les différentes associations Hadoop/Spark

Comparaison des performances

Différences concernant la reprise après incident

Configuration d’un noeud Hadoop pour le calcul MapReduce Spark

Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark

Exemples de programmes MapReduce Spark pour le traitement de gros volume de données

Quizz
Travaux pratiques

Déploiement d’un programme Mapreduce avec Spark afin de valider notre architecture Big Data dans sa globalité et proposer ainsi un socle technique complet et réaliste pour un projet Big Data.

Le programme est fourni et commentés globalement par le formateur, il n’est pas nécessaire d’être développeur.

 

Quiz final d’évaluation des acquis

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.