Aller au contenu principal

PLB CONSULTANT : 07. Talend : intégration de données pour le Big Data

Organisme

PLB CONSULTANT
3-5 RUE MAURICE RAVEL
92300 LEVALLOIS PERRET
Voir toutes ses formationsAutres organismes proposant cette formation

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Travaux pratiques. QCM en cours et en fin de formation. Auto-évaluation en début et en fin de formation.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
882€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
3528€ HT / groupe
4 stagiaires minimum

Public

Consultants BI, Architectes, Chefs de projets, Gestionnaires de données ou toute personnes devant gérer des flux de données. 

Pré-requis

Avoir des connaissances en Hadoop, Spark et Kafka

Objectifs pédagogiques

Maîtriser Talend dans un environnement Big Data

Se servir de Talend comme lien entre les fichiers, applications et bases de données

Acquérir la philosophie de l'outil

Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et bustes

Être capable d'implémenter ses Jobs

Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend

Réaliser des Jobs de transformation à l'aide de Pig et Hive

Gérer la qualité de la donnée avec Talend

Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop

Maîtriser l'utilisation de la bibliothèque de composants

Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Programme détaillé

Jour 1

Concepts de bases

Tour d’horizon des composants et philosophie de l’outils

Ouvrir un projet

Quelles différences pour Talend dans le contexte Big Data

Les spécificités liées au Big Data

Monitorer un cluster Hadoop

Créer un cluster de métadonnées

Lire et écrire des données en HDFS

Principes d’un système de fichiers distribué

Enregistrer un fichier sur du HDFS

Manipulations d’un grand nombre de fichiers et de gros fichiers

Lire les données de HDFS

Hbase une base NoSQL orientée colonnes au-dessus de HDFS

Travaux pratiques

Utiliser HBase pour sauvegarder les données charger dans HDFS avec des jobs Talend.

Lecture écriture de données dans la base

Travailler avec les tables

Comment apporter la dimension relationnelle ?

Vue générale de Hive

Utiliser Sqoop pour faciliter la migration de bases de données relationnelles dans Hadoop

Travaux pratiques

Réaliser des Jobs de migration de base de données relationnelles dans Hadoop avec Sqoop

Création de tables dans HDFS avec Hive

Traitement des données et des tables en HDFS (Pig et Hive)

Traitement des tables Hive avec des jobs

Traitement des données avec Pig

Traitement des données par lots

Travaux pratiques

Réaliser des Jobs Talend de transformation à l'aide de Pig et Hive

 

Jour 2

Guide de dépannage et bonnes pratiques

Dépannage de votre cluster

Les composants de qualité de données

Travaux pratiques

Réaliser des Jobs de transformation et gestion de la qualité de donnée

 

Quiz d’évaluation des acquis de la journée

 

Cas d'utilisation de clickstream (flux de clics)

Surveillance du cluster Hadoop

Créer un environnement de développement

Chargement des données dans HDFS

Enrichissement des logs

Calculer les statistiques

Conversion d'un job standard en un lot Big Data

Comprendre les jobs MapReduce

Travaux pratiques

Utilisation du studio pour configurer les ressource requests vers YARN

Cas d'utilisation : l'analyse comportementale

Chargement du dictionnaire et des données du fuseau horaire dans HDFS

Chargement des tweets dans HDFS

Traitement des tweets avec MapReduce

Planification de l'exécution du job

 

Quiz d’évaluation des acquis de la journée

 

Jour 3

Introduction à Kafka

Exemples d’applications et de flux de messages

Problématiques posées pour la gestion et le dispatch de ces flux

Ce que propose Kafka

Publication de messages sur un sujet Kafka

Consommer des messages Kafka dans Talend

Travaux pratiques

Lire des messages d'un sujet Kafka donné (broker list, starting offset, topic name, etc.), paramétrer la fréquence d’analyse, extraction de champs hashtag pour modifier la casse, compteur d’occurrence

Introduction à Spark

Comprendre les bases de Spark

Analyser les données des clients

Produire et consommer des flux en temps réel

Différents modes pour les job Talend Spark (local, standalone, yarn client)

Création d’un job Spark

Tests de Jobs Spark à l’aide de scénarios de test

Travaux pratiques

Création de jobs Spark deployés dans un cluster compatible Spark

Cas d'utilisation de traitement des logs : génération des logs enrichis

Introduction au cas d'utilisation du traitement des lois

Génération de logs bruts

Génération de logs enrichis

Traitement des logs cas d'utilisation : surveillance

Surveillance des logs enrichis

Cas d'utilisation de traitement des logs : rapports

Génération de rapports basés sur les fenêtres de données

Cas d'utilisation de traitement des logs : analyse des batchs

Ingestion de flux de données Analyser les logs avec un batch job

Quiz spécial sur les logs

 

Quiz final d’évaluation des acquis de la formation

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.