Aller au contenu principal

DOCAPOSTE INSTITUTE : 03. Les Architectures et infrastructures pour le Big Data

Organisme

DOCAPOSTE INSTITUTE
45 BD PAUL VAILLANT COUTURIER
94200 IVRY-SUR-SEINE

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1036.35€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
4252.5€ HT / groupe
4 stagiaires minimum

Public

Chefs de projets, Architectes, Développeurs, Data Scientists ou toute personne souhaitant connaître les outils pour concevoir une architecture Big Data…

Pré-requis

Avoir une bonne culture générale des systèmes d'information et plus particulièrement, avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation.

Objectifs pédagogiques

Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data

Savoir analyser les difficultés propres à un projet Big Data

Déterminer la nature des données manipulées

Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques

Exploiter les architectures Big Data

Mettre en place des socles techniques complets pour des projets Big Data

Programme détaillé

Définition et contexte spécifique des projets Big Data

  • Origines du Big Data
  • Les données au cœur des sujets : explosion des données, connexions Big Data et IoT (Internet des objets), données structurées, données semi-structurées, données non structurées et données structurées
  • Les limites des architecturales actuelles
  • Les définitions des systèmes Big Data
  • Principes de fonctionnement
  • Différentes offres de marché

 

Propriété des données, environnement de traitement légal et sécurité

  • Sécurité éthique et questions juridiques
  • Données personnelles
  • Informations confidentielles, interdictions
  • Réglementation des Données Numériques par la CNIL
  • Accords Nationaux

 

Impact des choix technologiques liés à l'infrastructure et à l'architecture Big Data

  • Architectures décisionnelles "traditionnelles" (Datastores, Data Warehouses, Data Marts, etc.)
  • Philosophie des bases NoSQL : Column Family, orienté document, clé-valeur, diagramme
  • Plusieurs acteurs (MongoDB, Cassandra, etc.)
  • Big Table / Big Query
  • Moteur de base de données (Exadata)
  • Base de données vectorielle (Sybase IQ)
  • Hadoop, système entièrement autonome ?
  • Impacts économiques

 

Mise en œuvre et élaboration d'une stratégie dédiée au Big Data

  • Besoins en sujet de Big Data
  • Atteindre les impartiaux cabinet au bon droit des conjoncture
  • Outils du marché dédiés au Big Data
  • Répondre aux attentes d'un collaborateur

 

Architectures distribuées

  • Problématiques et objectifs
  • Des conjoncture cohérentes, disponibles et tolérantes aux pannes ?
  • Les architectures lourdement parallèles
  • L'ouverture aux traitements complexes (datamining, intention learning, etc.)
  • Paradigmes de calculs distribués
  • Les bases NoSQL et le calcul distribué
  • Qualité des données (Dataquality)
  • Liens entre infrastructure et qualité des données
  • Pas de qualité, pas d'analyse
  • Les 4 V
  • Bases à chaud et à froid
  • Les apports d'un outil de Dataquality
  • Pourquoi utiliser un ETL ?
  • Illustration via Talend Data Integration
  • Analyser les données en les fusionnant avec les données internes
  • Le Master Data Management (MDM)

 

Préparation et visage du cluster Hadoop

  • Principes de fonctionnement de Hadoop Distributed File System (HDFS)
  • Principes de fonctionnement de MapReduce
  • Design « type » du cluster

 

Installation d'une plateforme Hadoop

  • Type de déploiement
  • Installation d'Hadoop
  • Installation de divers composants (Hive, Pig, HBase, Flume…)
  • Différences parmi les distributions Cloudera, Hortonworks et MapR

​​​​​​​

Gestion d'un cluster Hadoop

  • Gestion des nœuds du cluster Hadoop
  • Les TaskTracker, JobTracker dans MapReduce
  • Gestion des services via les schedulers
  • Gestion des logs

 

Gestion des données pour HDFS

  • Import de conjoncture externes (fichiers, bases de conjoncture relationnelles) enthousiasme HDFS
  • Manipulation des fichiers HDFS

 

Configuration avancée

  • Gestion des autorisations et de la sécurité
  • Reprise sur échec d'un name node (MRV1)
  • Haute disponibilité d'un NameNode (MRV2/YARN)

 

Monitoring et optimisation

  • Monitoring (Ambari, Ganglia…)
  • Benchmarking/profiling d'un cluster
  • Les outils Apache GridMix, Vaidya
  • Taille des blocs
  • Autres options de tuning (maniement de la compression, visage mémoire…)

Sessions

Filtrer les résultats

21 résultats

Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

0 résultat