DOCAPOSTE INSTITUTE : 09. Big Data - Python pour l'analyse de données
Organisme
94200 IVRY-SUR-SEINEVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.
Prix
Public
Développeurs en Python, Responsables Infocentre, Développeurs de logiciels, programmeurs, Data analysts, Data scientists.
Pré-requis
Maîtrise de la programmation Python et connaissances de base en statistiques
Objectifs pédagogiques
Comprendre le principe de la modélisation statistique
Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
Être capable d'extraire des données d'un fichier
Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
Apprendre à mettre en place un modèle d'apprentissage simple
Choisir entre la régression et la classification en fonction du type de données
Évaluer les performances prédictives d'un algorithme
Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances
Programme détaillé
Introduction à la structure des données en Python
- Python pour les manipulations de données
- Listes, ensembles, strings, tuples et dictionnaires
Opérations avancées sur la structure de données intégrée
- Structures de données avancées
- Opérations de base sur les fichiers en Python
Introduction à NumPy, Pandas et Matplotlib
- Les tableaux NumPy
- Les DataFrames Pandas
- Statistiques et visualisation avec NumPy et Pandas
- Utiliser NumPy et Pandas pour calculer des statistiques descriptives de base sur le DataFrame
Data Wrangling avec Python
- Définition et processus
- Sous-ensembles, filtrage et regroupement
- Détection des valeurs extrêmes et traitement des valeurs manquantes
- Concaténer, fusionner et joindre
- Les méthodes utiles de Pandas
- Compréhension avancée des listes et fonction zip
- Formatage des données
Scraping de données avec Python
- Définition du scraping
- Les différents niveaux de difficulté sur plusieurs supports
- Lecture de données provenant de différentes sources textuelles, et non textuelles.
- Outils de scrapping
- Introduction à BeautifulSoup
- Introduction à CSS Select
Scraping avancé et collecte de données
- Les bases du Web scraping, bibliothèques BeautifulSoup
- Python comme solution ETL
- Formats de données structurées : CSV, flux XML et JSON
- Lire et écrire des fichiers
- Exploiter des données de fichiers provenant de différentes sources
- Fonctions pour l'accès et le chargement de données en blocs de lignes
Implémenter un scraper
- Scraper simple avec les requêtes GET et les pages séquencées
- Identification de la stratégie de navigation sur le site pour trouver les données
- Construction de l'algorithme du scraper
- Scraper complexe : envoi de données à un site Web, obtention de résultats plus complexes
- Requêtes POST et GET
- Parcourir un site pour trouver les données
- Identifier la stratégie à adopter
- Coder le scraper
Application dans la vie réelle et conclusion du cours
- Appliquer vos connaissances à des tâches de data wrangling et data scraping de la vie réelle