Aller au contenu principal

PLB CONSULTANT : 4. Le développement d’applications Big Data et la Data visualisation

Organisme

PLB CONSULTANT

Durée

28 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Travaux pratiques. Études de cas. Auto-évaluation en début et en fin de formation.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1370€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
5560€ HT / groupe
4 stagiaires minimum

Public

Développeur, Business analyst, Consultant BI, Concepteur, chef de projet

Pré-requis

Connaître JAVA et les algorythmes

Objectifs pédagogiques

Pour consulter les objectifs pédagogiques, merci de vous référer au programme détaillé de chaque stage.

Programme détaillé

Objectifs pédagogiques : 

Cette formation vous présente les principales technologies concernant le développement d’applications Big Data. Elle forme un ensemble cohérent dans la mesure où, dans un premier temps, elle replace le cadre global du Big Data et se conclut par la visualisation des données que les programmes développés avec les technologies présentées dans cette formation sont capables d’extraire.

Nous n’avons volontairement pas fait le choix d’un langage particulier. En effet, qu’il s’agisse de MapReduce, Spark ou du Machine Learning, la philosophie est précisément d’être indépendant du langage. Cependant, afin d’être concret et de valider le discours théorique, les exemples seront exposés en Java , Python, Scala ou R.

 

Comprendre les spécificités du Big Data

Les origines du Big Data

Les données au cœur des enjeux (volume, diversité, IoT, etc.)

Les limites des architectures actuelles et de la BI

Sécurité, éthique, environnement juridique

 

Les technologies Big Data (Hadoop)

Comprendre Hadoop et ses composants

Le système de fichiers répartis HDFS (Hadopp Filesystem)Philosophie de MapReduce

L’apport de YARN (Yet Another Resource Negotiator)

Quelles différences entre les distributions (Hortonworks, Cloudera, MapR) pour le développeur ?

Différentes catégories de bases NoSQL (clé/valeur, documents, colonnes, graphes)

Indexer et rechercher des données avec Elasticsearch

Les visualiser à l’aide de KIBANA

Quand utiliser le couplage Elasticsearch, Logstash, Kibana (ELK) ?

Le moteur de recherche SolR

SAS VA et autres solutions mixtes Cloud/On Premice pour explorer vos données

IBM Watson (fédération des informations)

Solution BI Classique

Impacts techniques et financiers des différentes solutions (savoir-faire, coûts, etc.)

 

Le développement (Mapreduce, Spark)

Philosophie et contraintes du pattern MapReduce (Hadoop)

Concrètement quelles briques logicielles pour le développeur ?

Exemple de pseudo-code pour les opérations map et reduce

Limites de MapReduce et émergence de Spark

Les différentes versions de Spark (Scala, Python et Java)

Des traitements en mémoire et tolérants aux pannes RDD (Resilient Distributed Datasets)

Les modes de travail en cluster de Spark

Exemples :

- Développement d’un wordcount avec MapReduce Spark dans différents langages (Java, Python, Scala, R)

- Calcul d’une jointure sur deux grandes tables

 

Machine Learning

Qu’est-ce que le Machine Learning ?

Les points de vigilance par rapport au Big Data

Les différents types de machine learning

Les principaux algorithmes

Utiliser SparkML pour faire du Machine Learning de manière distribuée

Créer un système de catégorisation

Comprendre la différence entre Deep Learning et Machine Learning

Réseaux de neurones et Deep Learning

Utiliser le deep learning pour faire de la reconnaissance de caractère avec Tensorflow en Python

 

La visualisation des données (Dataviz)

Ce que les statistiques ne disent pas

Les objectifs de la visualisation

Quels graphes pour quels usages ?

Représentation de données complexes (encodage visuel, visualisation interactive)

Savoir communiquer sur les analyses de données (Data Storytelling)

 

Études de cas

Analyse de profils clients avec l’utilisation de Spark (domaine Banque et Assurance)

Classification de conducteur dans une agence de transport

Proposition de produits par rapport à une liste d’achats (Machine Learning)

Sessions

Filtrer les résultats

Aucun résultat pour cette recherche

Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

0 résultat