PLB CONSULTANT : 4. Le développement d’applications Big Data et la Data visualisation
Organisme
92300 LEVALLOIS PERRET
Contact
Durée
28 heuresModalités
- Classe virtuelle
- Présentiel
Travaux pratiques. Études de cas. Auto-évaluation en début et en fin de formation.
Prix
Public
Développeur, Business analyst, Consultant BI, Concepteur, chef de projet
Pré-requis
Connaître JAVA et les algorythmes
Objectifs pédagogiques
Pour consulter les objectifs pédagogiques, merci de vous référer au programme détaillé de chaque stage.
Programme détaillé
Objectifs pédagogiques :
Cette formation vous présente les principales technologies concernant le développement d’applications Big Data. Elle forme un ensemble cohérent dans la mesure où, dans un premier temps, elle replace le cadre global du Big Data et se conclut par la visualisation des données que les programmes développés avec les technologies présentées dans cette formation sont capables d’extraire.
Nous n’avons volontairement pas fait le choix d’un langage particulier. En effet, qu’il s’agisse de MapReduce, Spark ou du Machine Learning, la philosophie est précisément d’être indépendant du langage. Cependant, afin d’être concret et de valider le discours théorique, les exemples seront exposés en Java , Python, Scala ou R.
Comprendre les spécificités du Big Data
Les origines du Big Data
Les données au cœur des enjeux (volume, diversité, IoT, etc.)
Les limites des architectures actuelles et de la BI
Sécurité, éthique, environnement juridique
Les technologies Big Data (Hadoop)
Comprendre Hadoop et ses composants
Le système de fichiers répartis HDFS (Hadopp Filesystem)Philosophie de MapReduce
L’apport de YARN (Yet Another Resource Negotiator)
Quelles différences entre les distributions (Hortonworks, Cloudera, MapR) pour le développeur ?
Différentes catégories de bases NoSQL (clé/valeur, documents, colonnes, graphes)
Indexer et rechercher des données avec Elasticsearch
Les visualiser à l’aide de KIBANA
Quand utiliser le couplage Elasticsearch, Logstash, Kibana (ELK) ?
Le moteur de recherche SolR
SAS VA et autres solutions mixtes Cloud/On Premice pour explorer vos données
IBM Watson (fédération des informations)
Solution BI Classique
Impacts techniques et financiers des différentes solutions (savoir-faire, coûts, etc.)
Le développement (Mapreduce, Spark)
Philosophie et contraintes du pattern MapReduce (Hadoop)
Concrètement quelles briques logicielles pour le développeur ?
Exemple de pseudo-code pour les opérations map et reduce
Limites de MapReduce et émergence de Spark
Les différentes versions de Spark (Scala, Python et Java)
Des traitements en mémoire et tolérants aux pannes RDD (Resilient Distributed Datasets)
Les modes de travail en cluster de Spark
Exemples :
- Développement d’un wordcount avec MapReduce Spark dans différents langages (Java, Python, Scala, R)
- Calcul d’une jointure sur deux grandes tables
Machine Learning
Qu’est-ce que le Machine Learning ?
Les points de vigilance par rapport au Big Data
Les différents types de machine learning
Les principaux algorithmes
Utiliser SparkML pour faire du Machine Learning de manière distribuée
Créer un système de catégorisation
Comprendre la différence entre Deep Learning et Machine Learning
Réseaux de neurones et Deep Learning
Utiliser le deep learning pour faire de la reconnaissance de caractère avec Tensorflow en Python
La visualisation des données (Dataviz)
Ce que les statistiques ne disent pas
Les objectifs de la visualisation
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)
Études de cas
Analyse de profils clients avec l’utilisation de Spark (domaine Banque et Assurance)
Classification de conducteur dans une agence de transport
Proposition de produits par rapport à une liste d’achats (Machine Learning)