Aller au contenu principal
Afficher le fil d'ariane

PLB CONSULTANT : 2. Architecture et infrastructure

Organisme

PLB CONSULTANT
3-5 RUE MAURICE RAVEL
92300 LEVALLOIS PERRET
Voir toutes ses formationsAutres organismes proposant cette formation

Durée

28 heures

Modalités

Formation

  • Classe virtuelle
  • Présentiel

Évaluation

Travaux pratiques. Auto-évaluation en début et en fin de formation.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1370€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
5560€ HT / groupe
4 stagiaires minimum

Public

Architectes systèmes, développeurs, architectes et chefs de projets

Pré-requis

Connaître l'administration Linux (manipulation de fichiers, service, package, etc.)

Objectifs pédagogiques

Pour consulter les objectifs pédagogiques, merci de vous référer au programme détaillé de chaque stage.

Programme détaillé

Objectifs pédagogiques : 

Cette formation vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. Concrètement, quels sont les changements par rapport aux standards (serveur, SGBD, système de fichiers, etc.) et qu’apportent concrètement des solutions NoSQL ou des produits comme Hadoop.

Mais quelle que soit votre architecture, se posera le problème de la « qualité » des données. Nous vous montrons donc comment la gérer avec des ETL, le master data management, les bases multiples, etc. Vous disposerez donc d’une vue claire et opérationnelle sur la façon de disposer de données « propres » pour l’analyse des données de votre infrastructure.

Le calcul distribué étant au cœur du Big Data, vous comprenez comment mettre à la disposition des développeurs des architectures distribuées scalables et performantes (HDFS, MapReduce, etc.). Parmi les standards du marché les deux solutions sont Hadoop et Spark. Aussi, vous comprenez leur complémentarité et leur concurrence dans le cadre d’une architecture complète que vous mettez en œuvre. Concrètement, vous apprenez à installer un cluster Hadoop (Cloudera ou Hortonworks au choix) à plusieurs nœuds, à le paramétrer, à le sécuriser, le surveiller (monitoring), et donc, au final, à proposer une infrastructure de qualité aux développeurs et aux analystes.

La formation se termine par la mise en place d’un traitement MapReduce avec Spark pour traiter un flux de données en temps réel.

 

Définition et contexte spécifique des projets Big Data

Les origines du Big Data

Les données au cœur des enjeux :

- Explosion du nombre de données

- Liens entre Big Data et IoT (internet des objets)

- Données structurées, semi-structurées, non structurées

Les limites des architectures actuelles

Définition d’un système Big Data

Principes de fonctionnement

Les différentes offres des marchés

 

Propriété de la donnée, environnement juridique du traitement, sécurité

Sécurité éthique et enjeux juridiques

Les données personnelles

Les informations sensibles, interdites de collecte

La CNIL régule les données numériques

Les accords intra-pays

 

Impact des choix technologiques en matière d’infrastructure et d’architecture Big Data

Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart…)

Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe

Quelques acteurs (MongoDB, Cassandra…)

Big Table/ Big QueryLes database machine (Exadata)

Les bases de données vectorielles (Sybase IQ)

Hadoop un système totalement autonome ?

Conséquences techniques et financières selon les architectures

 

Architectures distribuées

Problématiques et enjeux d’une architecture distribuée

Des données cohérentes, disponibles et tolérantes aux pannes ?

Les architectures massivement parallèles

L’ouverture aux traitements complexes (datamining, machine learning, etc.)

Paradigmes de calculs distribués

Les bases NoSQL et le calcul distribué (exemple avec MongoDB)

 

Qualité des données (dataquality)

Liens entre infrastructure et qualité des données (exemples de problèmes)

Pas de qualité pas d’analyse

Les 4 VBase à chaud, base à froid

Les apports d’un outil de Dataquality

Pourquoi utiliser un ETL ?

Illustration via Talend Data Integration

Analyser les données en les fusionnant avec les données internes

Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?

 

Préparation et configuration du cluster Hadoop

Principes de fonctionnement de Hadoop Distributed File System (HDFS)

Principes de fonctionnement de MapReduce

Design "type" du clusterCritères de choix du matériel

 

Installation d'une plateforme Hadoop

Type de déploiementInstallation d'Hadoop

Installation d'autres composants (Hive, Pig, HBase, Flume...)

Quelques différences entre les distributions Cloudera, Hortonworks et MapR

 

Gestion d'un cluster Hadoop

Gestion des nœuds du cluster Hadoop

Les TaskTracker, JobTracker pour MapReduce

Gestion des tâches via les schedulers

Gestion des logsUtiliser un manager

 

Gestion des données dans HDFS

Import de données externes (fichiers, bases de données relationnelles) vers HDFS

Manipulation des fichiers HDFS

 

Configuration avancée

Gestion des autorisations et de la sécurité

Reprise sur échec d'un name node (MRV1)

NameNode high availability (MRV2/YARN)

 

Monitoring et optimisation Tuning

Monitoring (Ambari, Ganglia...)

Benchmarking/profiling d'un cluster

Les outils Apache GridMix, Vaaidya

Choisir la taille des blocs

Autres options de tuning (utilisation de la compression, configuration mémoire...)

 

Architecture Hadoop avec Spark

La philosophie de Spark par rapport à Hadoop

Les différentes associations Hadoop/Spark

Comparaison des performances

Différences concernant la reprise après incident

 

MapReduce Spark

Maîtriser le fonctionnement de Map

Reduce Spark

Configuration d’un nœud Hadoop pour le calcul MapReduce Spark

Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark

Écriture de MapReduce Spark pour la résolution de problèmes concrets

Sessions

Filtrer les résultats

35 résultats

Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

0 résultat