Aller au contenu principal

DOCAPOSTE INSTITUTE : 09. Big Data - Python pour l'analyse de données

Organisme

DOCAPOSTE INSTITUTE
45 BD PAUL VAILLANT COUTURIER
94200 IVRY-SUR-SEINE
Voir toutes ses formationsAutres organismes proposant cette formation

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
1102.5€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
4977€ HT / groupe
4 stagiaires minimum

Public

Développeurs en Python, Responsables Infocentre, Développeurs de logiciels, programmeurs, Data analysts, Data scientists.

Pré-requis

Maîtrise de la programmation Python et connaissances de base en statistiques

Objectifs pédagogiques

Comprendre le principe de la modélisation statistique

Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python

Être capable d'extraire des données d'un fichier 

Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse

Apprendre à mettre en place un modèle d'apprentissage simple

Choisir entre la régression et la classification en fonction du type de données

Évaluer les performances prédictives d'un algorithme

Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances

Programme détaillé

Introduction à la structure des données en Python

  • Python pour les manipulations de données
  • Listes, ensembles, strings, tuples et dictionnaires

 

Opérations avancées sur la structure de données intégrée

  • Structures de données avancées
  • Opérations de base sur les fichiers en Python

 

Introduction à NumPy, Pandas et Matplotlib

  • Les tableaux NumPy
  • Les DataFrames Pandas
  • Statistiques et visualisation avec NumPy et Pandas
  • Utiliser NumPy et Pandas pour calculer des statistiques descriptives de base sur le DataFrame

 

Data Wrangling avec Python

  • Définition et processus
  • Sous-ensembles, filtrage et regroupement
  • Détection des valeurs extrêmes et traitement des valeurs manquantes
  • Concaténer, fusionner et joindre
  • Les méthodes utiles de Pandas
  • Compréhension avancée des listes et fonction zip
  • Formatage des données

 

Scraping de données avec Python

  • Définition du scraping
  • Les différents niveaux de difficulté sur plusieurs supports
  • Lecture de données provenant de différentes sources textuelles, et non textuelles.
  • Outils de scrapping
  • Introduction à BeautifulSoup
  • Introduction à CSS Select

 

Scraping avancé et collecte de données

  • Les bases du Web scraping, bibliothèques BeautifulSoup
  • Python comme solution ETL
  • Formats de données structurées : CSV, flux XML et JSON
  • Lire et écrire des fichiers
  • Exploiter des données de fichiers provenant de différentes sources
  • Fonctions pour l'accès et le chargement de données en blocs de lignes

 

Implémenter un scraper

  • Scraper simple avec les requêtes GET et les pages séquencées
  • Identification de la stratégie de navigation sur le site pour trouver les données
  • Construction de l'algorithme du scraper
  • Scraper complexe : envoi de données à un site Web, obtention de résultats plus complexes
  • Requêtes POST et GET
  • Parcourir un site pour trouver les données
  • Identifier la stratégie à adopter
  • Coder le scraper

 

Application dans la vie réelle et conclusion du cours

  • Appliquer vos connaissances à des tâches de data wrangling et data scraping de la vie réelle

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

Aucun résultat