AJC FORMATION : 09. Big Data - Python pour l'analyse de données
Organisme
75009 PARIS 9Voir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Les apprenants réalisent tout au long de la formation des exercices, QCM, mises en situation, TP, TD qui seront corrigés pour faciliter l’acquisition de compétences.
Prix
Public
Développeurs en Python, Responsables Infocentre, Développeurs de logiciels, programmeurs, Data analysts, Data scientists.
Pré-requis
Maîtrise de la programmation Python et connaissances de base en statistiques
Objectifs pédagogiques
Comprendre le principe de la modélisation statistique
Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
Être capable d'extraire des données d'un fichier
Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
Apprendre à mettre en place un modèle d'apprentissage simple
Choisir entre la régression et la classification en fonction du type de données
Évaluer les performances prédictives d'un algorithme
Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances
Programme détaillé
ECOSYSTEME SCIENTIFIQUE
Présentation de l'écosystème «Python scientifique »
▪ Les outils scientifiques de calcul
▪ Les librairies
✓Numpy
✓SciPy
✓Matplotlib
✓Pylab (les 3 précédentes en 1)
✓Pandas
✓Scikit-Learn …
Environnement de travail
▪ Les distributions Python (Enthought, Anaconda, WinPython, ...)
▪ Les IDE de développement (Spyder, Eclipse, PyCharm, ...)
CALCUL NUMERIQUE AVEC PYTHON
Représentation des nombres avec Python
▪ Les nombres avec Python
▪ Les nombres avec NumPy
▪ Les problèmes d'arrondi
▪ NumPy - Le socle de calcul numérique
▪ Les différents types de données avec Numpy
▪ Opérations matricielles
▪ Les fonctions incontournables
▪ Entrées/Sorties et formats de fichiers : natif Numpy, NetCDF, HDF5, Matlab
Travaux pratiques : Réalisation et mise en place d’une librairie et opérations sur les matrices
Pandas
▪ Séries et Matrices de données hétérogènes(DataFrame)
▪ Entrées/Sorties
▪ Sélection et indexation des données
▪ Manipulations de données (groupement, ajout, suppression,
redimensionnement, pivots, …)
▪ Opérations et statistiques
Travaux pratiques : Importation, traitement et normalisation (Data Frame) dans le cadre d'opérations statistiques
Matplotlib
▪ Concepts des tracés
▪ Premiers graphiques : courbes, titres et légendes
▪ Axes, échelles de représentations
▪ Couleurs et styles
Travaux pratiques : Réalisation de tracés à partir de Data Frames
SciPy
▪ L'interpolation de données météorologiques
▪ Le traitement d'images
▪ DATAVIZ
▪ Quelques librairies : Seaborn, Altaïr
▪ Visualisation de données cartographiques
▪ Applications opensources pour la visualisation de larges jeux de données
Travaux pratiques : Réalisation de tracés à partir de Data Frames
LES ESSENTIELS DE LA PROGRAMMATION PARALELLE
▪ La parallélisation
▪ Principes de base de la parallélisation
▪ Python et la parallélisation
▪ Multi-threading
▪ Qu'est ce qu'un thread ?
▪ Accès concurrentiel aux données
▪ Les verrous
▪ Les sémaphores
▪ Deadlock
▪ File d'attente
▪ Limites du Multi-threading en Python
▪ Multi-processing
▪ Qu'est ce qu'un process ?
▪ Mémoire partagée
▪ Verrous et sémaphores
▪ File d'attente
▪ Communication
▪ Barrière
▪ Pool
Travaux pratiques : Introduction d’ opérations spécifiques sur des tâches interdépendantes et des systèmes de transformation basés sur des algorithmes parallèles