DOCAPOSTE INSTITUTE : 07. Talend : intégration de données pour le Big Data
Organisme
94200 IVRY-SUR-SEINEVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.
Prix
Public
Consultants BI, Architectes, Chefs de projets, Gestionnaires de données ou toute personnes devant gérer des flux de données.
Pré-requis
Avoir des connaissances en Hadoop, Spark et Kafka
Objectifs pédagogiques
Maîtriser Talend dans un environnement Big Data
Se servir de Talend comme lien entre les fichiers, applications et bases de données
Acquérir la philosophie de l'outil
Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et bustes
Être capable d'implémenter ses Jobs
Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
Réaliser des Jobs de transformation à l'aide de Pig et Hive
Gérer la qualité de la donnée avec Talend
Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
Maîtriser l'utilisation de la bibliothèque de composants
Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout
Programme détaillé
Présentation générale des solutions ETL et de Talend:
- L'intégration de données
- présentation des solutions ETL
- Installation de Talend Open Studio
- Débuter avec Talend Open Studio
- Vision globale sur les composants de Talend Open Studio
Modélisation du besoin et conception d'un premier job :
- Business Modeler : compréhension et bonne pratique
- Job Designer : compréhension et bonne pratique
- Principales connexions
- Extraction de données avec les Composants CSV et XML
- Composants de transformation simples
- Visualisation du code généré
- Exécution d'un job
Gestion de jobs et Optimisation de leur développement :
- Configuration des connexions réutilisables à l'aide des métadonnées
- Mise à jour des métadonnées et leur propagation sur les jobs, importer/exporter des métadonnées
- Paramétrer les jobs par des contextes
- Externaliser les variables de contexte dans des fichiers ".properties" et ".ini"
- Créer et gérer ses propres variables
- Générer des jeux de données pour des tests
Interaction avec les bases de données :
- Bases de données supportées et principaux composants
- Paramétrages des opérations sur les tables
- Métadonnées et connexion à des bases de données
- Partage de connexions et gestion des transactions
- Création des requêtes à l'aide de SQLBuilder
Les données multisources :
- Présentation du fonctionnement du composant tMap
- Configuration des flux d'entrée, créations de jointures
- Réalisation des transformations (utilisation de variables, expressions et jointures)
- Qualification des données à l'aide de filtres
- Génération des sorties multiples