PLB CONSULTANT : 07. Talend : intégration de données pour le Big Data

Organisme

PLB CONSULTANT

3-5 RUE MAURICE RAVEL
92300 LEVALLOIS PERRET

Voir toutes ses formations Autres organismes proposant cette formation

Contact

SERVICE COMMERCIAL

plb@plb.fr
0143349094

Voir les sessions proposées

Durée

21 heures

Modalités

Formation

Classe virtuelle
Présentiel

Évaluation

À l’issue de cette session, chaque stagiaire bénéficiaire sera contacté par un prestataire choisi par l’Opco Atlas afin d’évaluer « à chaud » la qualité de la formation suivie.

Prix

Inter

920,29 € HT / personne

Intra

3 681,14 € HT / groupe

4 stagiaires minimum

Public

Consultants BI, Architectes, Chefs de projets, Gestionnaires de données ou toute personnes devant gérer des flux de données.

Pré-requis

Avoir des connaissances en Hadoop, Spark et Kafka

Objectifs pédagogiques

Maîtriser Talend dans un environnement Big Data

Se servir de Talend comme lien entre les fichiers, applications et bases de données

Acquérir la philosophie de l'outil

Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et bustes

Être capable d'implémenter ses Jobs

Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend

Réaliser des Jobs de transformation à l'aide de Pig et Hive

Gérer la qualité de la donnée avec Talend

Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop

Maîtriser l'utilisation de la bibliothèque de composants

Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Programme détaillé

Jour 1

Concepts de bases

Tour d’horizon des composants et philosophie de l’outils

Ouvrir un projet

Quelles différences pour Talend dans le contexte Big Data

Les spécificités liées au Big Data

Monitorer un cluster Hadoop

Créer un cluster de métadonnées

Lire et écrire des données en HDFS

Principes d’un système de fichiers distribué

Enregistrer un fichier sur du HDFS

Manipulations d’un grand nombre de fichiers et de gros fichiers

Lire les données de HDFS

Hbase une base NoSQL orientée colonnes au-dessus de HDFS

Travaux pratiques

Utiliser HBase pour sauvegarder les données charger dans HDFS avec des jobs Talend.

Lecture écriture de données dans la base

Travailler avec les tables

Comment apporter la dimension relationnelle ?

Vue générale de Hive

Utiliser Sqoop pour faciliter la migration de bases de données relationnelles dans Hadoop

Travaux pratiques

Réaliser des Jobs de migration de base de données relationnelles dans Hadoop avec Sqoop

Création de tables dans HDFS avec Hive

Traitement des données et des tables en HDFS (Pig et Hive)

Traitement des tables Hive avec des jobs

Traitement des données avec Pig

Traitement des données par lots

Travaux pratiques

Réaliser des Jobs Talend de transformation à l'aide de Pig et Hive

Jour 2

Guide de dépannage et bonnes pratiques

Dépannage de votre cluster

Les composants de qualité de données

Travaux pratiques

Réaliser des Jobs de transformation et gestion de la qualité de donnée

Quiz d’évaluation des acquis de la journée

Cas d'utilisation de clickstream (flux de clics)

Surveillance du cluster Hadoop

Créer un environnement de développement

Chargement des données dans HDFS

Enrichissement des logs

Calculer les statistiques

Conversion d'un job standard en un lot Big Data

Comprendre les jobs MapReduce

Travaux pratiques

Utilisation du studio pour configurer les ressource requests vers YARN

Cas d'utilisation : l'analyse comportementale

Chargement du dictionnaire et des données du fuseau horaire dans HDFS

Chargement des tweets dans HDFS

Traitement des tweets avec MapReduce

Planification de l'exécution du job

Quiz d’évaluation des acquis de la journée

Jour 3

Introduction à Kafka

Exemples d’applications et de flux de messages

Problématiques posées pour la gestion et le dispatch de ces flux

Ce que propose Kafka

Publication de messages sur un sujet Kafka

Consommer des messages Kafka dans Talend

Travaux pratiques

Lire des messages d'un sujet Kafka donné (broker list, starting offset, topic name, etc.), paramétrer la fréquence d’analyse, extraction de champs hashtag pour modifier la casse, compteur d’occurrence

Introduction à Spark

Comprendre les bases de Spark

Analyser les données des clients

Produire et consommer des flux en temps réel

Différents modes pour les job Talend Spark (local, standalone, yarn client)

Création d’un job Spark

Tests de Jobs Spark à l’aide de scénarios de test

Travaux pratiques

Création de jobs Spark deployés dans un cluster compatible Spark

Cas d'utilisation de traitement des logs : génération des logs enrichis

Introduction au cas d'utilisation du traitement des lois

Génération de logs bruts

Génération de logs enrichis

Traitement des logs cas d'utilisation : surveillance

Surveillance des logs enrichis

Cas d'utilisation de traitement des logs : rapports

Génération de rapports basés sur les fenêtres de données

Cas d'utilisation de traitement des logs : analyse des batchs

Ingestion de flux de données Analyser les logs avec un batch job

Quiz spécial sur les logs

Quiz final d’évaluation des acquis de la formation

Sessions

Modalités pédagogiques

Présentiel

Mixte

En ligne

Classe virtuelle

Type de formation

Inter

Intra

Options

Formation certifiante

Session garantie