PLB CONSULTANT : 07. Talend : intégration de données pour le Big Data
Organisme
92300 LEVALLOIS PERRETVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Travaux pratiques. QCM en cours et en fin de formation. Auto-évaluation en début et en fin de formation.
Prix
Public
Consultants BI, Architectes, Chefs de projets, Gestionnaires de données ou toute personnes devant gérer des flux de données.
Pré-requis
Avoir des connaissances en Hadoop, Spark et Kafka
Objectifs pédagogiques
Maîtriser Talend dans un environnement Big Data
Se servir de Talend comme lien entre les fichiers, applications et bases de données
Acquérir la philosophie de l'outil
Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et bustes
Être capable d'implémenter ses Jobs
Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
Réaliser des Jobs de transformation à l'aide de Pig et Hive
Gérer la qualité de la donnée avec Talend
Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
Maîtriser l'utilisation de la bibliothèque de composants
Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout
Programme détaillé
Jour 1
Concepts de bases
Tour d’horizon des composants et philosophie de l’outils
Ouvrir un projet
Quelles différences pour Talend dans le contexte Big Data
Les spécificités liées au Big Data
Monitorer un cluster Hadoop
Créer un cluster de métadonnées
Lire et écrire des données en HDFS
Principes d’un système de fichiers distribué
Enregistrer un fichier sur du HDFS
Manipulations d’un grand nombre de fichiers et de gros fichiers
Lire les données de HDFS
Hbase une base NoSQL orientée colonnes au-dessus de HDFS
Travaux pratiques
Utiliser HBase pour sauvegarder les données charger dans HDFS avec des jobs Talend.
Lecture écriture de données dans la base
Travailler avec les tables
Comment apporter la dimension relationnelle ?
Vue générale de Hive
Utiliser Sqoop pour faciliter la migration de bases de données relationnelles dans Hadoop
Travaux pratiques
Réaliser des Jobs de migration de base de données relationnelles dans Hadoop avec Sqoop
Création de tables dans HDFS avec Hive
Traitement des données et des tables en HDFS (Pig et Hive)
Traitement des tables Hive avec des jobs
Traitement des données avec Pig
Traitement des données par lots
Travaux pratiques
Réaliser des Jobs Talend de transformation à l'aide de Pig et Hive
Jour 2
Guide de dépannage et bonnes pratiques
Dépannage de votre cluster
Les composants de qualité de données
Travaux pratiques
Réaliser des Jobs de transformation et gestion de la qualité de donnée
Quiz d’évaluation des acquis de la journée
Cas d'utilisation de clickstream (flux de clics)
Surveillance du cluster Hadoop
Créer un environnement de développement
Chargement des données dans HDFS
Enrichissement des logs
Calculer les statistiques
Conversion d'un job standard en un lot Big Data
Comprendre les jobs MapReduce
Travaux pratiques
Utilisation du studio pour configurer les ressource requests vers YARN
Cas d'utilisation : l'analyse comportementale
Chargement du dictionnaire et des données du fuseau horaire dans HDFS
Chargement des tweets dans HDFS
Traitement des tweets avec MapReduce
Planification de l'exécution du job
Quiz d’évaluation des acquis de la journée
Jour 3
Introduction à Kafka
Exemples d’applications et de flux de messages
Problématiques posées pour la gestion et le dispatch de ces flux
Ce que propose Kafka
Publication de messages sur un sujet Kafka
Consommer des messages Kafka dans Talend
Travaux pratiques
Lire des messages d'un sujet Kafka donné (broker list, starting offset, topic name, etc.), paramétrer la fréquence d’analyse, extraction de champs hashtag pour modifier la casse, compteur d’occurrence
Introduction à Spark
Comprendre les bases de Spark
Analyser les données des clients
Produire et consommer des flux en temps réel
Différents modes pour les job Talend Spark (local, standalone, yarn client)
Création d’un job Spark
Tests de Jobs Spark à l’aide de scénarios de test
Travaux pratiques
Création de jobs Spark deployés dans un cluster compatible Spark
Cas d'utilisation de traitement des logs : génération des logs enrichis
Introduction au cas d'utilisation du traitement des lois
Génération de logs bruts
Génération de logs enrichis
Traitement des logs cas d'utilisation : surveillance
Surveillance des logs enrichis
Cas d'utilisation de traitement des logs : rapports
Génération de rapports basés sur les fenêtres de données
Cas d'utilisation de traitement des logs : analyse des batchs
Ingestion de flux de données Analyser les logs avec un batch job
Quiz spécial sur les logs