Aller au contenu principal

AMBIENT IT : 09. Big Data - Python pour l'analyse de données

Durée

21 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
882€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
3528€ HT / groupe
4 stagiaires minimum

Public

Développeurs en Python, Responsables Infocentre, Développeurs de logiciels, programmeurs, Data analysts, Data scientists.

Pré-requis

Maîtrise de la programmation Python et connaissances de base en statistiques

Objectifs pédagogiques

Comprendre le principe de la modélisation statistique

Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python

Être capable d'extraire des données d'un fichier 

Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse

Apprendre à mettre en place un modèle d'apprentissage simple

Choisir entre la régression et la classification en fonction du type de données

Évaluer les performances prédictives d'un algorithme

Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances

Programme détaillé

PRÉSENTATION DES LIBRAIRIES

  • Pandas
  • NumPy et SciPy
  • Matplotlib
  • Scikit-Learn
  • Utiliser des fonctions de librairies
  • Gérer les modules et librairies

 

PRÉPARATION DES DONNÉES

  • L’importance d’avoir des données intègres et préparées
  • Lire et écrire des fichiers CSV
  • Importer des ensembles de données
  • Nettoyer et préparer les données
  • Formatage des données
  • Construire des pipelines de données

 

MODÉLISER SES DONNÉES AVEC PANDAS

  • Manipuler ses données
  • Créer des colonnes
  • Transformer ses colonnes
  • Interrogation, triage et filtrage
  • Regroupement et agrégation pour la synthèse des données
  • Fusionner et joindre des données provenant de plusieurs sources
  • La concaténation
  • Sélectionner des éléments
  • Remplacer des valeurs

 

VISUALISATION DES DONNÉES AVEC PANDAS

  • Effectuer des comparaisons
  • Créer des graphiques :
  • Histogramme
    • Pie chart
    • Graphique de densité Kernel
    • Graphique hexagonal
    • Scatter chart
    • Line chart
    • Boxplot
  • TP : Trouver des insights à partir de ses visualisations

 

CALCUL NUMÉRIQUE AVEC NUMPY

  • Passer des listes Python aux tableaux NumPy
  • Travailler avec des tableaux multidimensionnels
  • Opérations sur les arrays, découpage et diffusion
  • Les fonctions d’algèbre linéaire et matricielle
  • Les principales fonctions mathématiques

 

ANALYSE STATISTIQUE AVEC SCIPY

  • Les bonnes pratiques pour une analyse de données réussie
  • Les 3 classes statistiques de SciPy
  • Utiliser les fonctions de statistiques descriptives
  • Calculer le z-score et le t-score
  • TP : Analyse de plusieurs dataframes différents

 

DÉVELOPPEMENT DES MODÈLES DE MACHINE LEARNING

  • Les points forts et les limites du machine learning
  • Choisir ses modèles à l’aide de la visualisation
  • Les fonctions d’optimisation et le preprocessing avec SciPy
  • Les différents modèles d’apprentissage avec SciKit-Learn

 

RÉGRESSION AVEC SCIKIT-LEARN

  • Régression linéaire simple
  • Régression linéaire multiple
  • La régression logistique
  • La régression polynomiale
  • R-carré et EQM pour évaluer son modèle
  • Prédiction et prise de décision

 

CLASSIFICATION AVEC SCIKIT-LEARN

  • SVM
  • Nearest neighbors
  • Random forest
  • K-Means

 

ALGORITHMES DATA

  • Découvrir des algorithmes destinés à l’analyse de données
  • Mettre en œuvre des algorithmes d’analyse de données
  • Évaluer les performances prédictives

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.