PLB CONSULTANT : 10. Les fondamentaux de l'analyse statistique avec R
Organisme
92300 LEVALLOIS PERRETVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Travaux pratiques. QCM en cours et en fin de formation. Auto-évaluation en début et en fin de formation.
Prix
Public
Ingénieurs, Data analysts, statisticiens, développeurs en environnement statistique ou toute personne intéressée par l'analyse statistique avec R
Pré-requis
Être familier avec l'environnement Microsoft Windows et avoir des connaissances de base en statistiques
Objectifs pédagogiques
Savoir installer et utiliser l’environnement d'analyse R
Comprendre comment manipuler des données avec R
Savoir importer et exporter des données
Savoir reconnaître les différents types d'objets de R
Créer des programmes d'analyse avec R
Être en mesure de réaliser des analyses statistiques basiques avec R
Savoir restituer des résultats à l'aide de graphiques
Programme détaillé
Jour 1
Présentation du logiciel R et de l’environnement
Y voir clair dans le vocabulaire (langage R, logiciel R, R Studio…)
Caractéristiques du langage R
Pourquoi R et Python sont souvent comparés ?
Exemple de projet R Studio (fichiers de code, scripts, documents, etc.)
Exemples de rendus de programmes R dans différents domaines (statistiques, Big Data, etc.)
Utilisation de la console
Création et sauvegarde d’un script
Le répertoire courant sous R (getwd, setwd, dir, etc.)
Les .R fichier et leurs rôles (.Rporfile, .Rdata, .Rhistory…)
Rechercher des packages R
Chercher de l’aide
Ateliers
Téléchargement et installation de votre environnement de travail R.
Scénario d’une session de travail type avec manipulation de scripts (chargement, modification, exécution).
Installation de quelques packages utiles
Création et manipulation d’objets R
Objets R et variables « traditionnelles » en programmation
Caractéristiques (nom, mode, length)
Le vecteur, objet de base dans R
Les variantes de type factor (package forcats)
Les objets structurés en ligne et colonne (matrices)
Matrices avec des variables de types différents (dataframe)
Regrouper un ensemble d’objets dans une liste (list)
Les Tables de contingences
Importer des données (read.table(), read.csv(), read_excel(), etc.)
Exporter des données source, save, write…)
Ateliers
Prise en main de la syntaxe de manipulation des différents objets
Import de données pour remplir une matrice à partir d’un fichier csv
Quizz de validation des acquis de la journée
Manipulation des objets
Calcul sur les objets (opérateurs)
Opérateurs de sélection des éléments d’un objet
Utiliser le SQL
Manipuler les data frames
Appliquer des rangs
Trier des données
Filtrer des données
Réaliser des sous-sélections
Fusionner des données
Échantillonnage
Empiler/Désempiler des données
Lire et écrire sur des bases de données
Gérer le stockage des objets en mémoire
Ateliers
Produire des tableaux croisés avec R (dataframes)
Union de dataframes et suppression de données communes (dplyr ::union, dplyr ::intersect))
Opérations sur les vecteurs (tri, moyenne, ecart type, variance, etc.)
Calcul d’agrégats globaux et relatifs à un ou plusieurs facteurs
Manipulation de table avec data.table
Jour 2
Programmation et fonctions
Les conditions (if, else, switch)
Les boucles
Définir sa propre fonction
Notion de prototype (signature)
Appeler une fonction
Fonctions manipulant des objets numériques (minimum, maximum, moyene, covariance, etc.)
Fonctions sur les chaînes de caractères (longueur, conversion, concaténation, etc.)
Fonctions sur les dates (conversion, extraction de jour, mois, etc.)
Atelier
Création d’une fonction permettant de tester si un objet est un vecteur et dans l’affirmative effectuer des calculs sur ses composantes
Création d’une fonction permettant d’obtenir une description statistique d’un vecteur sous forme de liste
Visualisation des données
Aperçu des possibilités graphiques de R
Évaluer graphiquement la dispersion des données (stripchart)
Affichage simple avec plot
La commande curve (courbes)
La commande barplot (histogramme)
Addition de graphiques (points)
Ajout de quadrillage (grid)
Ggplot2 pour les graphiques sophistiqués
Ateliers
Dessiner des courbes de fonction dans un intervalle de données
Représentation d’une série brute de données importées avec barplot
Exécution de programme R « tout faits » mettant en valeur les possibilités graphiques de R
Analyses statistiques
Chargement des packages nécessaires
Implémentation de la régression linéaire en R
Cas de la régression linéaire multiple
Analyse en composantes principales (ACP)
Classification ascendante hiérarchique (CAH)
Ateliers
Étude de variables quantitatives sur la qualité de l’air (régression linéaire multiple). La liste des variables explicatives est passée dans la formule. On cherche à estimer les 3 régressions suivantes (taux d’ozone en fonction de la température, du vent et de l’indice solaire, idem avec toutes les interactions troubles, idem avec toutes les interactions).
Bilan