PLB CONSULTANT : 1. Enjeux et perspectives du Big Data
Organisme
92300 LEVALLOIS PERRETVoir toutes ses formationsAutres organismes proposant cette formation
Durée
21 heuresModalités
Formation
- Classe virtuelle
- Présentiel
Évaluation
Travaux pratiques. Auto-évaluation en début et en fin de formation.
Prix
Public
Développeurs, concepteurs, Architectes, Data/business Analysts, Data scientists, chefs de projets, directeurs de projets, consultant SI.
Pré-requis
Avoir une connaissance générale en systèmes d'information.
Objectifs pédagogiques
Pour consulter les objectifs pédagogiques, merci de vous référer au programme détaillé de chaque stage.
Programme détaillé
Objectifs pédagogiques :
Cette formation Concevoir et piloter un projet Big Data vous permet de comprendre le contexte spécifique, le vocabulaire et les enjeux du Big Data afin de bien positionner les fondations d’un tel projet tant sur le plan humain, technique, sécurité, financier et juridique.L’écosystème technologique du Big Data (infrastructure Hadoop, NoSQL, collecte, qualité des données, analyse, MapReduce, Machine Learning, dataviz, etc.) vous apparaîtra clairement ainsi que les liens entre ces composants au niveau technique mais aussi du projet. Le facteur humain et les bonnes pratiques en matière de gouvernance des données dans un projet Big Data seront également abordés.
Concrètement à l’issue de cette formation vous serez capable de :
- Comprendre les spécificités d’un projet Big Data
- Comprendre les risques et le cadre juridique d’un projet Big Data
- Comprendre l’ensemble des technologies et les liens entre elles
- Comprendre les métiers concernés par un projet Big Data
- Savoir constituer et piloter l’équipe d’un projet Big Data
- Savoir mettre en place une gouvernance des données efficace
- Savoir piloter le cycle de vie des données (collecte, exploitation, analyse, visualisation)
- Savoir mettre en place des tests cohérents.
Contexte et opportunités du Big Data
Les origines du Big Data
Les données au cœur des enjeux
Explosion du nombre de données
La place des objets connectés dans le Big Data
Données structurées, semi-structurées, non structurées
Comment disposer de données de « qualité » ?
Les limites des architectures actuelles
Définition d’un système Big Data
Différences entre BI, Big Data et Data Science ?
Sécurité éthique et enjeux juridiques du Big Data
Les données personnelles
Les informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-pays
Open data
La philosophie des données ouvertes et les objectifs
Bénéfices escomptés
Synergie avec le Big Data
Les projets Big Data en entreprise
Spécificités d’un projet Big Data
Enjeux stratégiques et organisationnels
L’innovation constante accélère le phénomène
Nouvelles technologies de transmission (vitesse de connexion accrue, mobiles en constante amélioration)
Objets connectés et domotique
Zoom sur le marché des biens et services proposés aux consommateurs
Fusionner les données exogènes et endogènes pour mieux comprendre les usagers
Méthodes de traitement de l’information : du traitement batch, au traitement temps réel
Architectures décisionnelles d’aujourd’huiLes lacs de données (Datalake) en pleine émergence
Exemple de cahier des charges
Architecture et infrastructure Big Data
Cohabitation des solutions SGBDR et NoSQL
Les outils permettant d’extraire les données (ETL)
La nécessité de “nettoyer” les données (dataquality)
Exemple de traitement avec un ETL dédié Big data
L’apport d’un MDM (Master Data Manager)
Le stockage avec Hadoop (base de données Hbase, système de fichiers distribué HDFS)
Solutions big data alternatives (Sybase IQ, SAP Hana, Vectorwise, HP Vertica, etc.)
L’analyse des données et la visualisation
Définition de l’analyse statistique
Requêter avec Hive
Analyser les données (Pig, Mahout, etc.)
Intégrer les données grâce à Sqoop
Le développement d’applications Big Data
La philosophie de MapReduce (clef, valeur)
L’apport d’Apache SparkMachine learning et prédiction des données (Scala, Spark MLibs, etc.)
Interconnexion avec les outils SPSS, R, SAS
Conclusion : quelle famille et quel type de langage pour quel besoin ?
La visualisation des données (Dataviz)
Ce que les statistiques ne disent pas
Data visualisation et cas d'usage concrets
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)
Synthèse des principaux outils utilisés dans les projets
Démonstration d’un environnement distribué Hadoop
Les moteurs de recherche de grande envergure
Présentation Lucene, Solr
Mécanisme de traitement
Gestion des journaux applicatifs
Mécanismes et architecture Apache Flume
La relation entre Cloud et Big Data
Motivation entre clouds publics et privés
Les clouds de stockage
Se reconcentrer sur les problématiques métiers, grâce aux services managés