PLB CONSULTANT : 3. Les techniques d’analyse et de visualisation
Organisme
92300 LEVALLOIS PERRETVoir toutes ses formationsAutres organismes proposant cette formation
Durée
28 heuresModalités
Formation
- Classe virtuelle
- Présentiel
Évaluation
Travaux pratiques. Auto-évaluation en début et en fin de formation.
Prix
Public
Data Analysts, Business Analysts, Analystes Business Intelligence, Dataminers, Développeurs, chefs de projets
Pré-requis
Connaître les principes de programmation, du langage SQL et avoir une expérience dans le développement.
Objectifs pédagogiques
Pour consulter les objectifs pédagogiques, merci de vous référer au programme détaillé de chaque stage.
Programme détaillé
Objectifs pédagogiques :
L’objectif de cette formation est de vous rendre autonome dans l’analyse et la visualisation des données dans un contexte Big Data.
Un premier rappel permet de replacer les technologies dans le contexte du Big Data afin de clairement comprendre pourquoi de nouveaux outils apparaissent par rapport aux standards SQL ou de visualisation.Ensuite, la progression logique de la formation vous permettra de savoir structurer vos données, les alimenter, les analyser et enfin de les visualiser avec le bon outil. On se situe ainsi dans un scénario cohérent et réaliste autour du cycle de vie des données.
Les nombreuses manipulations réalisées durant la formation vous permettront non seulement de disposer d’une vue générale très précise des différents concepts et outils, y compris sur le plan méthodologique, mais aussi d’être véritablement opérationnel sur les standards du marché comme Hive, Pig, Impala, ou Spark. Vous saurez également choisir le bon outil de visualisation pour restituer des présentations dynamiques sur des analyses plus ou moins complexes (Drill, Elasticsearch…) en communiquant de manière efficace et accessible (Dataviz, Data Storytelling).
Comprendre les spécificités du Big Data
Les origines du Big Data
Les données au cœur des enjeux (volume, diversité, IoT etc.)
Les limites des architectures actuelles et de la BI
Sécurité, éthique, environnement juridique (données personnelles, CNIL, accords internationaux, etc.)
Les technologies Big Data (stockage, recherche, visualisation)
Comprendre Hadoop et ses composantsLe système de fichiers répartis HDFS
Philosophie de MapReduce
Quelles différences entre les distributions (Hortonworks, Cloudera, MapR) pour l’analyste ?
Différentes catégories de bases NoSQL (clé/valeur, documents, colonnes, graphes)
Indexer et rechercher des données avec Elasticsearch
Les visualiser à l’aide de KIBANA
Quand utiliser le couplage Elasticsearch, Logstash, Kibana (ELK) ?
Le moteur de recherche SolRSAS VA et autres solutions mixtes Cloud/On Premice pour explorer vos données
IBM Watson (fédération des informations)
Solution BI ClassiqueImpacts techniques et financiers
Gestion des données structurées ou non
Exemples de données non structurées
Manipuler les données avec différents formats de fichiers :
- Mode tableau
- Fichiers plats : CSV, JSON
- Structures optimisées : Parquet
- Organisation relationnelle : Hive metastore
Le Master Data Management (MDM) pour réconcilier les référentiels
Stocker et manipuler des données HDFS
Structurer vos données avec Hive (bases, tables, etc.)
La collecte de données
Intégrer les données avec un ETL
Utiliser Scoop pour intégrer les données depuis une base de données relationnelle
Travailler en streaming avec Kafka et Spark Streaming
Utiliser le langage Pig latin pour intégrer les données
L’analyse des données
Choisir le bon outil en fonction de la structure des données et du traitement (Pig, Hive, Impala, etc.)
Liens avec les outils décisionnels
Vue générale des différentes méthodes d’analyse (exploration, segmentation, classification, estimation, prédiction)
Requêter avec Hive (jointure sur des données non structurées, tri, regroupement, etc.)
Analyser les données avec Pig (script et interactif avec Grunt)
Interagir avec Hadoop en temps réel (traitement parallèle avec Impala, interroger les données Hive avec Spark)
Analyse interactive de données avec Drill
Analyse des données de log avec Elasticsearch
La visualisation des données (Dataviz)
Ce que les statistiques ne disent pas
Les objectifs de la visualisation
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)