Aller au contenu principal

AJC FORMATION : 09. Big Data - Python pour l'analyse de données

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Les apprenants réalisent tout au long de la formation des exercices, QCM, mises en situation, TP, TD qui seront corrigés pour faciliter l’acquisition de compétences.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1058.4€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
4725€ HT / groupe
4 stagiaires minimum

Public

Développeurs en Python, Responsables Infocentre, Développeurs de logiciels, programmeurs, Data analysts, Data scientists.

Pré-requis

Maîtrise de la programmation Python et connaissances de base en statistiques

Objectifs pédagogiques

Comprendre le principe de la modélisation statistique

Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python

Être capable d'extraire des données d'un fichier 

Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse

Apprendre à mettre en place un modèle d'apprentissage simple

Choisir entre la régression et la classification en fonction du type de données

Évaluer les performances prédictives d'un algorithme

Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances

Programme détaillé

ECOSYSTEME SCIENTIFIQUE

Présentation de l'écosystème «Python scientifique »

▪ Les outils scientifiques de calcul

▪ Les librairies

✓Numpy

✓SciPy

✓Matplotlib

✓Pylab (les 3 précédentes en 1)

✓Pandas

✓Scikit-Learn …

 

Environnement de travail

▪ Les distributions Python (Enthought, Anaconda, WinPython, ...)

▪ Les IDE de développement (Spyder, Eclipse, PyCharm, ...)

 

CALCUL NUMERIQUE AVEC PYTHON

Représentation des nombres avec Python

▪ Les nombres avec Python

▪ Les nombres avec NumPy

▪ Les problèmes d'arrondi

▪ NumPy - Le socle de calcul numérique

▪ Les différents types de données avec Numpy

▪ Opérations matricielles

▪ Les fonctions incontournables

▪ Entrées/Sorties et formats de fichiers : natif Numpy, NetCDF, HDF5, Matlab

Travaux pratiques : Réalisation et mise en place d’une librairie et opérations sur les matrices

 

Pandas

▪ Séries et Matrices de données hétérogènes(DataFrame)

▪ Entrées/Sorties

▪ Sélection et indexation des données

▪ Manipulations de données (groupement, ajout, suppression,

redimensionnement, pivots, …)

 

▪ Opérations et statistiques

Travaux pratiques : Importation, traitement et normalisation (Data Frame) dans le cadre d'opérations statistiques

 

Matplotlib

▪ Concepts des tracés

▪ Premiers graphiques : courbes, titres et légendes

▪ Axes, échelles de représentations

 

▪ Couleurs et styles

Travaux pratiques : Réalisation de tracés à partir de Data Frames

 

SciPy

▪ L'interpolation de données météorologiques

▪ Le traitement d'images

▪ DATAVIZ

▪ Quelques librairies : Seaborn, Altaïr

▪ Visualisation de données cartographiques

▪ Applications opensources pour la visualisation de larges jeux de données

Travaux pratiques : Réalisation de tracés à partir de Data Frames

 

LES ESSENTIELS DE LA PROGRAMMATION PARALELLE

▪ La parallélisation

▪ Principes de base de la parallélisation

▪ Python et la parallélisation

▪ Multi-threading

▪ Qu'est ce qu'un thread ?

▪ Accès concurrentiel aux données

▪ Les verrous

▪ Les sémaphores

▪ Deadlock

▪ File d'attente

▪ Limites du Multi-threading en Python

▪ Multi-processing

▪ Qu'est ce qu'un process ?

▪ Mémoire partagée

▪ Verrous et sémaphores

▪ File d'attente

 

▪ Communication

▪ Barrière

▪ Pool

Travaux pratiques : Introduction d’ opérations spécifiques sur des tâches interdépendantes et des systèmes de transformation basés sur des algorithmes parallèles

 

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.