Aller au contenu principal
Afficher le fil d'ariane

PLB CONSULTANT : 3. Les techniques d’analyse et de visualisation

Organisme

PLB CONSULTANT
3-5 RUE MAURICE RAVEL
92300 LEVALLOIS PERRET
Voir toutes ses formationsAutres organismes proposant cette formation

Durée

28 heures

Modalités

Formation

  • Classe virtuelle
  • Présentiel

Évaluation

Travaux pratiques. Auto-évaluation en début et en fin de formation.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1370€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
5560€ HT / groupe
4 stagiaires minimum

Public

Data Analysts, Business Analysts, Analystes Business Intelligence, Dataminers, Développeurs, chefs de projets

Pré-requis

Connaître les principes de programmation, du langage SQL et avoir une expérience dans le développement.

Objectifs pédagogiques

Pour consulter les objectifs pédagogiques, merci de vous référer au programme détaillé de chaque stage.

Programme détaillé

Objectifs pédagogiques : 

L’objectif de cette formation est de vous rendre autonome dans l’analyse et la visualisation des données dans un contexte Big Data.

Un premier rappel permet de replacer les technologies dans le contexte du Big Data afin de clairement comprendre pourquoi de nouveaux outils apparaissent par rapport aux standards SQL ou de visualisation.Ensuite, la progression logique de la formation vous permettra de savoir structurer vos données, les alimenter, les analyser et enfin de les visualiser avec le bon outil. On se situe ainsi dans un scénario cohérent et réaliste autour du cycle de vie des données.

Les nombreuses manipulations réalisées durant la formation vous permettront non seulement de disposer d’une vue générale très précise des différents concepts et outils, y compris sur le plan méthodologique, mais aussi d’être véritablement opérationnel sur les standards du marché comme Hive, Pig, Impala, ou Spark. Vous saurez également choisir le bon outil de visualisation pour restituer des présentations dynamiques sur des analyses plus ou moins complexes (Drill, Elasticsearch…) en communiquant de manière efficace et accessible (Dataviz, Data Storytelling).

 

Comprendre les spécificités du Big Data

Les origines du Big Data

Les données au cœur des enjeux (volume, diversité, IoT etc.)

Les limites des architectures actuelles et de la BI

Sécurité, éthique, environnement juridique (données personnelles, CNIL, accords internationaux, etc.)

 

Les technologies Big Data (stockage, recherche, visualisation)

Comprendre Hadoop et ses composantsLe système de fichiers répartis HDFS

Philosophie de MapReduce

Quelles différences entre les distributions (Hortonworks, Cloudera, MapR) pour l’analyste ?

Différentes catégories de bases NoSQL (clé/valeur, documents, colonnes, graphes)

Indexer et rechercher des données avec Elasticsearch

Les visualiser à l’aide de KIBANA

Quand utiliser le couplage Elasticsearch, Logstash, Kibana (ELK) ?

Le moteur de recherche SolRSAS VA et autres solutions mixtes Cloud/On Premice pour explorer vos données

IBM Watson (fédération des informations)

Solution BI ClassiqueImpacts techniques et financiers

 

Gestion des données structurées ou non

Exemples de données non structurées

Manipuler les données avec différents formats de fichiers :

- Mode tableau

- Fichiers plats : CSV, JSON

- Structures optimisées : Parquet

- Organisation relationnelle : Hive metastore

Le Master Data Management (MDM) pour réconcilier les référentiels

Stocker et manipuler des données HDFS

Structurer vos données avec Hive (bases, tables, etc.)

 

La collecte de données

Intégrer les données avec un ETL

Utiliser Scoop pour intégrer les données depuis une base de données relationnelle

Travailler en streaming avec Kafka et Spark Streaming

Utiliser le langage Pig latin pour intégrer les données

 

L’analyse des données

Choisir le bon outil en fonction de la structure des données et du traitement (Pig, Hive, Impala, etc.)

Liens avec les outils décisionnels

Vue générale des différentes méthodes d’analyse (exploration, segmentation, classification, estimation, prédiction)

Requêter avec Hive (jointure sur des données non structurées, tri, regroupement, etc.)

Analyser les données avec Pig (script et interactif avec Grunt)

Interagir avec Hadoop en temps réel (traitement parallèle avec Impala, interroger les données Hive avec Spark)

Analyse interactive de données avec Drill

Analyse des données de log avec Elasticsearch

 

La visualisation des données (Dataviz)

Ce que les statistiques ne disent pas

Les objectifs de la visualisation

Quels graphes pour quels usages ?

Représentation de données complexes (encodage visuel, visualisation interactive)

Savoir communiquer sur les analyses de données (Data Storytelling)

Sessions

Filtrer les résultats

Aucun résultat pour cette recherche

Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

0 résultat