Aller au contenu principal

AJC FORMATION : 07. Talend : intégration de données pour le Big Data

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Les apprenants réalisent tout au long de la formation des exercices, QCM, mises en situation, TP, TD qui seront corrigés pour faciliter l’acquisition de compétences.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1058.4€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
4567.5€ HT / groupe
4 stagiaires minimum

Public

Consultants BI, Architectes, Chefs de projets, Gestionnaires de données ou toute personnes devant gérer des flux de données. 

Pré-requis

Avoir des connaissances en Hadoop, Spark et Kafka

Objectifs pédagogiques

Maîtriser Talend dans un environnement Big Data

Se servir de Talend comme lien entre les fichiers, applications et bases de données

Acquérir la philosophie de l'outil

Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et bustes

Être capable d'implémenter ses Jobs

Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend

Réaliser des Jobs de transformation à l'aide de Pig et Hive

Gérer la qualité de la donnée avec Talend

Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop

Maîtriser l'utilisation de la bibliothèque de composants

Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Programme détaillé

Introduction à Talend Big Data

▪ Concepts

 

Connexion au cluster Hadoop

▪ Créer des métadonnées de cluster dans le référentiel

▪ Créer des métadonnées HDFS dans le référentiel

 

Lecture et écriture des données dans HDFS

▪ Stocker un fichier dans HDFS

▪ Stocker des fichiers multiples dans HDFS

▪ Lire des données dans HDFS

▪ Stocker des jeux de données dispersés avec HDFS

 

Traitement des données Hive dans des Jobs standard

▪ Créer des métadonnées de connexion Hive

▪ Sauvegarder des données sous forme de tables Hive

▪ Traiter des tables Hive avec un Job standard

▪ Effectuer un profiling des tables Hive avec les analyses de qualité de données

 

Traitement des données avec MapReduce

▪ Traiter des données stockées dans HDFS avec Pig, en utilisant des Jobs standard

▪ Traiter des données dans HDFS avec des Jobs Big Data Batch

▪ Migrer un Job standard vers un Job Big Data Batch

 

Cas d’utilisation Big Data : flux de clics

▪ Installer un environnement de développement

▪ Charger des fichiers de données dans HDFS

▪ Enrichir des logs

▪ Calculer des statistiques

▪ Comprendre les Jobs MapReduce

▪ Utiliser le Studio Talend pour configurer les demandes de ressources YARN

Travaux pratiques : Réaliser une migration de tables relationnelles sur HDFS & Hive

 

 

 

 

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.