AMBIENT IT : 09. Big Data - Python pour l'analyse de données
Organisme
93500 PANTINVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.
Prix
Public
Développeurs en Python, Responsables Infocentre, Développeurs de logiciels, programmeurs, Data analysts, Data scientists.
Pré-requis
Maîtrise de la programmation Python et connaissances de base en statistiques
Objectifs pédagogiques
Comprendre le principe de la modélisation statistique
Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
Être capable d'extraire des données d'un fichier
Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
Apprendre à mettre en place un modèle d'apprentissage simple
Choisir entre la régression et la classification en fonction du type de données
Évaluer les performances prédictives d'un algorithme
Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances
Programme détaillé
PRÉSENTATION DES LIBRAIRIES
- Pandas
- NumPy et SciPy
- Matplotlib
- Scikit-Learn
- Utiliser des fonctions de librairies
- Gérer les modules et librairies
PRÉPARATION DES DONNÉES
- L’importance d’avoir des données intègres et préparées
- Lire et écrire des fichiers CSV
- Importer des ensembles de données
- Nettoyer et préparer les données
- Formatage des données
- Construire des pipelines de données
MODÉLISER SES DONNÉES AVEC PANDAS
- Manipuler ses données
- Créer des colonnes
- Transformer ses colonnes
- Interrogation, triage et filtrage
- Regroupement et agrégation pour la synthèse des données
- Fusionner et joindre des données provenant de plusieurs sources
- La concaténation
- Sélectionner des éléments
- Remplacer des valeurs
VISUALISATION DES DONNÉES AVEC PANDAS
- Effectuer des comparaisons
- Créer des graphiques :
- Histogramme
- Pie chart
- Graphique de densité Kernel
- Graphique hexagonal
- Scatter chart
- Line chart
- Boxplot
- TP : Trouver des insights à partir de ses visualisations
CALCUL NUMÉRIQUE AVEC NUMPY
- Passer des listes Python aux tableaux NumPy
- Travailler avec des tableaux multidimensionnels
- Opérations sur les arrays, découpage et diffusion
- Les fonctions d’algèbre linéaire et matricielle
- Les principales fonctions mathématiques
ANALYSE STATISTIQUE AVEC SCIPY
- Les bonnes pratiques pour une analyse de données réussie
- Les 3 classes statistiques de SciPy
- Utiliser les fonctions de statistiques descriptives
- Calculer le z-score et le t-score
- TP : Analyse de plusieurs dataframes différents
DÉVELOPPEMENT DES MODÈLES DE MACHINE LEARNING
- Les points forts et les limites du machine learning
- Choisir ses modèles à l’aide de la visualisation
- Les fonctions d’optimisation et le preprocessing avec SciPy
- Les différents modèles d’apprentissage avec SciKit-Learn
RÉGRESSION AVEC SCIKIT-LEARN
- Régression linéaire simple
- Régression linéaire multiple
- La régression logistique
- La régression polynomiale
- R-carré et EQM pour évaluer son modèle
- Prédiction et prise de décision
CLASSIFICATION AVEC SCIKIT-LEARN
- SVM
- Nearest neighbors
- Random forest
- K-Means
ALGORITHMES DATA
- Découvrir des algorithmes destinés à l’analyse de données
- Mettre en œuvre des algorithmes d’analyse de données
- Évaluer les performances prédictives