Aller au contenu principal

PLB CONSULTANT : 09. Big Data - Python pour l'analyse de données

Organisme

PLB CONSULTANT
3-5 RUE MAURICE RAVEL
92300 LEVALLOIS PERRET
Voir toutes ses formationsAutres organismes proposant cette formation

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Travaux pratiques. QCM en cours et en fin de formation. Auto-évaluation en début et en fin de formation.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
882€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
3528€ HT / groupe
4 stagiaires minimum

Public

Développeurs en Python, Responsables Infocentre, Développeurs de logiciels, programmeurs, Data analysts, Data scientists.

Pré-requis

Maîtrise de la programmation Python et connaissances de base en statistiques

Objectifs pédagogiques

Comprendre le principe de la modélisation statistique

Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python

Être capable d'extraire des données d'un fichier 

Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse

Apprendre à mettre en place un modèle d'apprentissage simple

Choisir entre la régression et la classification en fonction du type de données

Évaluer les performances prédictives d'un algorithme

Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances

Programme détaillé

Jour 1

Rappels des bases de Python

Les caractéristiques du langage Python

Pourquoi choisir Python pour l’analyse de données ?

Philosophie de Python (indentation, objet, etc.)

Les types de données

Appels de fonctions et méthodes

Structures de contrôles (boucle, test, exceptions)

Structures de données et séquences (tuple, liste, primitives, dict)

Les principales bibliothèques de Python (NumPy, Pandas, Matplotlib, Ipython, SciPy)

Atelier

TP de synthèse mettant en oeuvre les bibliothèques NumPy, Pandas et SciPy. On utilise un gros fichier CSV des naissances que l’on transforme en tableau (Pandas) et on calcule des statistiques comme le « nombre de Laurent nés en telle année selon les départements », « la moyenne des naissances nationales annuelle et l’écart type par région », etc..

Aspects avancés en Python

Espace de noms, périmètre et fonctions locales

Manipuler les fonctions comme des objets

Les fonctions anonymes (lambda)

Fonction à nombre variable d’arguments (*args, **kwargs)

Atelier

Écriture d’une fonction de tri recevant un nombre arbitraire d’arguments

Passage de la fonction heuristique du tri (celle qui précise si un objet est « plus petit » qu’un autre) à la fonction précédente

Acquisition des données

Lecture de fichiers de manière générique et spécifiquement de différents formats courants : CSV, XML, JSON

Utilisation de la bibliothèque requests pour l’acquistion de données externes stockées sur un serveur de l’entreprise ou sur internet

Atelier

Cet atelier donnera l’occasion aux participants de mettre au point un moteur de recherche simple dans le système de fichiers. Une fois le système de fichiers indexés, il y sera possible de rechercher par mot-clef un fichier et son contenu automatiquement.

 

Quiz de validation des acquis de la première journée

 

Jour 2

Bibliothèques d’Analyses Statistiques

Présentation des principales bibliothèques d’analyse de données Python : Pandas, SciPy, IPython (Jupyter)

Fonctions de manipulation et de calcul matriciel (Numpy)

Fonctions de Statistiques Descriptives (SciPy) : quantiles et des fonctions de répartition pour différentes lois statistiques

Fonctions de comparaison de populations, mesures d’association

Fonctions de classification automatique (SciPy) : k-means

Atelier

Cet atelier permettra aux participants d’appliquer leurs connaissances à la réalisation d’un « mini atelier » d’Analyse Technique pour la Finance des Marchés :

- Collecte automatique de séries financières

- Calcul d’indicateurs : d’indicateurs simples (moyennes mobiles) à des indicateurs avancés (tel que le RSI et les Bandes de Bollinger) 

- Visualisation des résultats

Visualisation de données

Introduction aux bases de la visualisation de données

Focalisation sur la génération de graphes grâce à la librairie Matplotlib : démonstration de l’application de graphes Matplotlib à la visualisation de problèmes concrets

Atelier

Cet atelier permettra de poursuivre les travaux de l’atelier précédent en générant des visualisations graphiques illustrant les analyses de données réalisées (les appels à la bibliothèque Matplotlib sont fournis par le formateur afin de rester concentrer principalement sur l’analyse des données).

 

Quiz de validation des acquis de la deuxième journée

 

Jour 3

Régression, Classification et Evaluation des Résultats

Établissement d’un modèle de classification et d’un modèle de régression avec Python pour résoudre deux problèmes distincts

Évaluation du modèle dans son contexte, faux positifs, faux négatifs, matrice de confusion, différents scores de précision

Atelier

Mise en oeuvre d’un modèle de classification et de régression en Python

Deep Learning & Frameworks

Différence entre le machine learning et le deep learning

Introduction aux réseaux de neurones et à la descente de gradient

Introduction aux frameworks de deep learning Tensorflow et Keras de Google

Atelier

Cet atelier permettra d’étudier un modèle de deep learning en fonctionnement sur un problème de classification d’image. L’objectif est de se familiariser avec la notion de couche de neurones, d’hyperparamètres et d’entraînement de modèle.

Big Data & Traitement de gros volumes de données

Introduction à l’algorithme de MapReduce

Introduction à la parallélisation du code dans le but d’améliorer les performances de calcul

Introduction à Spark

La composante Spark ML

Atelier

Mise en oeuvre d’un programme Spark ML en Python afin d’être sensibilisé aux possibilités d’auto apprentissage simple en Python

 

Quiz final de validation des acquis

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.