DOCAPOSTE INSTITUTE : 07. Talend : intégration de données pour le Big Data

Organisme

DOCAPOSTE INSTITUTE

45 BD PAUL VAILLANT COUTURIER
94200 IVRY-SUR-SEINE

Voir toutes ses formations Autres organismes proposant cette formation

Contact

SERVICE COMMERCIAL DOCAPOSTE INSTITUTE

hello.institute@docaposte.fr
0611071851

Voir les sessions proposées

Durée

21 heures

Modalités

Formation

Classe virtuelle
Présentiel

Évaluation

Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.

Prix

Inter

1 150,36 € HT / personne

Intra

4 765,76 € HT / groupe

4 stagiaires minimum

Public

Consultants BI, Architectes, Chefs de projets, Gestionnaires de données ou toute personnes devant gérer des flux de données.

Pré-requis

Avoir des connaissances en Hadoop, Spark et Kafka

Objectifs pédagogiques

Maîtriser Talend dans un environnement Big Data

Se servir de Talend comme lien entre les fichiers, applications et bases de données

Acquérir la philosophie de l'outil

Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et bustes

Être capable d'implémenter ses Jobs

Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend

Réaliser des Jobs de transformation à l'aide de Pig et Hive

Gérer la qualité de la donnée avec Talend

Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop

Maîtriser l'utilisation de la bibliothèque de composants

Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Programme détaillé

Présentation générale des solutions ETL et de Talend:

L'intégration de données
présentation des solutions ETL
Installation de Talend Open Studio
Débuter avec Talend Open Studio
Vision globale sur les composants de Talend Open Studio

Modélisation du besoin et conception d'un premier job :

Business Modeler : compréhension et bonne pratique
Job Designer : compréhension et bonne pratique
Principales connexions
Extraction de données avec les Composants CSV et XML
Composants de transformation simples
Visualisation du code généré
Exécution d'un job

Gestion de jobs et Optimisation de leur développement :

Configuration des connexions réutilisables à l'aide des métadonnées
Mise à jour des métadonnées et leur propagation sur les jobs, importer/exporter des métadonnées
Paramétrer les jobs par des contextes
Externaliser les variables de contexte dans des fichiers ".properties" et ".ini"
Créer et gérer ses propres variables
Générer des jeux de données pour des tests

Interaction avec les bases de données :

Bases de données supportées et principaux composants
Paramétrages des opérations sur les tables
Métadonnées et connexion à des bases de données
Partage de connexions et gestion des transactions
Création des requêtes à l'aide de SQLBuilder

Les données multisources :

Présentation du fonctionnement du composant tMap
Configuration des flux d'entrée, créations de jointures
Réalisation des transformations (utilisation de variables, expressions et jointures)
Qualification des données à l'aide de filtres
Génération des sorties multiples

Sessions

Mixte

En ligne

Classe virtuelle

Présentiel

Inter

Intra

Formation certifiante

Session garantie